<p class="ql-block"><b style="font-size:20px;"> 最近,微信“视频号”和“直播”上挺热门的内容之一是教授用人工智能(AI)工具进行图片和短视频创作。凑热闹看了其中的一些,挺感兴趣,挺好玩,于是按看到的方法依样画葫芦试了试。相比早些年开始使用的修图和视频剪辑工具,新近受到热捧的图片和视频处理、生成工具确实更加方便、高效和智能化。</b></p><p class="ql-block"><b style="font-size:20px;"> 本篇仅展示使用豆包、即梦的部分功能进行应用尝试的一些结果,供感兴趣的亲友参考,更希望得到指导和帮助。</b></p> <p class="ql-block" style="text-align:center;"><b style="color:rgb(22, 126, 251); font-size:22px;">在老照片修复中的应用</b></p> <p class="ql-block"><b style="font-size:20px;">原始照片</b></p><p class="ql-block"><b style="font-size:20px;">——“50后”的农村小学生</b></p> <p class="ql-block"><b style="font-size:20px;"> 仅作“变清晰”处理,由原始图片生成比较清晰的图片。这可称为</b><b style="font-size:20px; color:rgb(22, 126, 251);">“图生图”</b><b style="font-size:20px;">。</b></p> <p class="ql-block"><b style="font-size:20px; color:rgb(22, 126, 251);">要求(提示词):</b><b style="font-size:20px;">给“变清晰”的老照片上色。</b></p> <p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">问题:</b><b style="font-size:20px;">红领巾和服装均未上色,且衣服两袖改变 。</b></p> <p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">要求(提示词):</b><b style="font-size:20px;">给衣服和红领巾着色。</b></p><p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">问题:</b><b style="font-size:20px;">除人像头部外,服装变化大,原照片特征基本消失。</b></p> <p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">要求(提示词):</b><b style="font-size:20px;">给衣服和红领巾着色,并改变背景色。</b></p><p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">问题:</b><b style="font-size:20px;">除人像头部外,已无原照片特征!</b></p> <p class="ql-block"><b style="font-size:20px; color:rgb(22, 126, 251);"> 未能保持原照片中服装和红领巾的原貌,时代感缺失。细节处理困难,还不能做到随心所欲!</b></p> <p class="ql-block"><b style="color:rgb(1, 1, 1); font-size:20px;">原始照片</b></p><p class="ql-block"><b style="font-size:20px;">——上世纪60年代的新兵蛋子</b></p> <p class="ql-block"><b style="font-size:20px; color:rgb(22, 126, 251);">提示词:</b><b style="font-size:20px;">作清晰化修复并上色。</b></p><p class="ql-block"><b style="font-size:20px; color:rgb(22, 126, 251);">问题:</b><b style="font-size:20px;">胸前徽章未能着色。</b></p> <p class="ql-block"><b style="font-size:20px; color:rgb(22, 126, 251);">提示词:</b><b style="font-size:20px;">上图基础上,为胸前徽章着色。</b></p><p class="ql-block"><b style="font-size:20px; color:rgb(22, 126, 251);">问题:</b><b style="font-size:20px;">徽章非原样了!</b></p> <p class="ql-block"><b style="font-size:20px; color:rgb(22, 126, 251);"> 显然,在局部细节的处理上,还不能达到理想的效果。</b></p> <p class="ql-block"><br></p><p class="ql-block" style="text-align:center;"><b style="color:rgb(22, 126, 251); font-size:22px;">文生图</b></p><p class="ql-block"><b style="font-size:20px;"> 编写文字(提示词),提出对生成图片的要求,AI根据这些要求生成4张图片,供选择使用。若不满意,可“再次生成”,或修改提示词,重新生成。</b></p> <p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">提示词:</b><b style="font-size:20px;">中国军人,在高原雪山下,排成方阵,列队敬礼,俯拍,气势宏伟。</b></p> <p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">提示词:</b><b style="font-size:20px;">从太空俯瞰,展现出整个地球的全貌,逼真写实的视觉效果。比例 1:1。</b></p> <p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">提示词:</b><b style="font-size:20px;">水底仰视,清澈的水质,上面是一片片硕大的荷叶和盛开的荷花,荷叶间有小鱼在游动。夏日清凉宁静。高饱和色彩,水墨画风格。比例 4:3。</b></p> <p class="ql-block" style="text-align:center;"><b style="font-size:22px; color:rgb(22, 126, 251);">图+文生图</b></p><p class="ql-block"><b style="font-size:20px;"> 在提供一张照片为“参考图”的同时,提供文字表述的“提示词”,生成所要求的图片。</b></p><p class="ql-block"><br></p><p class="ql-block" style="text-align:center;"><b style="font-size:20px; color:rgb(22, 126, 251);">参考图</b></p> <p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">提示词:</b><b style="font-size:20px;">保持人物面貌不变,岗亭前,两手持冲锋枪,威武,严肃,原比例。</b></p> <p class="ql-block" style="text-align:center;"><b style="font-size:22px; color:rgb(22, 126, 251);">文生视频</b></p><p class="ql-block"><b style="font-size:20px;"> 编写文字(提示词),提出对生成视频的要求,AI根据这些要求生成视频。若不满意,可“再次生成”,或修改提示词,重新生成。</b></p> <p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">提示词:</b><b style="font-size:20px;">第一人称视角低角度拍摄机车把手,运动模糊特效呈现两侧飞掠的茂密树林,镜头随颠簸路面剧烈震动,落叶被气流卷起迎面扑来,仪表盘指针持续指向红色极限区域,阳光穿透树冠形成流动光斑,引擎轰鸣声震动耳膜,尘土飞扬中隐约可见远方弯道反光路标。</b></p> <p class="ql-block" style="text-align:center;"><b style="color:rgb(22, 126, 251); font-size:22px;">图+文生视频</b></p><p class="ql-block" style="text-align:center;"><b style="font-size:20px;">原始照片(单帧)</b></p> <p class="ql-block"><b style="font-size:20px;">时长5秒</b></p><p class="ql-block"><b style="font-size:20px; color:rgb(22, 126, 251);">提示词:</b><b style="font-size:20px;">让队伍齐步向前,走在楼间的马路上,喊口号“一、二、三、四”,雄赳赳气昂昂,摇拍镜头。比例 4:3。</b></p> <p class="ql-block"><b style="font-size:20px;">时长10秒</b></p><p class="ql-block"><b style="font-size:20px; color:rgb(22, 126, 251);">提示词:</b><b style="font-size:20px;">让队伍齐步向前,走在楼间的马路上,喊着口号“一、二、三、四”,雄赳赳气昂昂,摇拍镜头。比例 4:3。</b></p> <p class="ql-block"><b style="font-size:20px;"> 完全相同的提示词,用两个不同的AI工具生成分别为5和10秒时长的视频。显然,前者效果较好:队伍精神抖擞,步伐整齐;而后者队伍显得散慢,步伐不齐,特别是在队伍后面添加了许多虚构的人员,严重失真。</b></p> <p class="ql-block" style="text-align:center;"><b style="font-size:22px; color:rgb(22, 126, 251);">双帧(首尾帧)</b></p><p class="ql-block"><b style="font-size:20px;">首帧原始照片</b></p> <p class="ql-block"><b style="font-size:20px;">尾帧原始照片</b></p> <p class="ql-block"><b style="color:rgb(22, 126, 251); font-size:20px;">提示词:</b><b style="font-size:20px;">从外太空视觉快速穿越至地球,首先穿过云层,镜头出现在城市上空,垂直穿过城市建筑,再快速拉近到宾馆餐厅里,父亲为女儿过生日,喜庆欢乐,呈现出逼真写实的视觉效果。</b></p> <p class="ql-block"><b style="font-size:20px;"> 可见,采用首尾双帧图片生成视频,可表现更丰富的想象空间。</b></p> <p class="ql-block"><b style="font-size:22px; color:rgb(22, 126, 251);"> AI已经并将继续在人类发展的历史中发挥重要作用!从以上尝试可知,AI在图片和视频生成方面已经具有了相当高的能力和水平。但是,显然还存在许多有待改进完善的地方。比如,在一些局部细节的处理上,还不能达到理想的效果;某些推理形成的画面和场景还不够合理,应用者还不能真正实现“随心所欲”;尤其在“人机对话”方面,AI对人的指令(提示词)的理解和执行,人对AI“思维、习惯”的了解和配合,都需要进一步的“磨合”和改进;……。</b></p><p class="ql-block"><b style="font-size:22px; color:rgb(22, 126, 251);"> 当然,在现有条件下,使用者仍有可能使相关AI工具的功能发挥得更加完美。比如,若能充分发挥即梦、豆包等工具的图片生成、视频生成和数字人、动作模仿等功能的综合优势,又把醒图、剪映等图像处理、视频剪辑工具的特长利用起来,还可借助DeepSeek作分镜头、提示词的分析和文字提炼,进行“联合作战”,就可能取得更好的效果!</b></p>