让老照片唱歌

鍾老師

<p class="ql-block">千问是个多功能的软件,万相是千问里面的其中一个软件。</p><p class="ql-block">万相2.6是阿里巴巴于2025年12月16日发布的新一代AI视频生成模型,属于通义万相系列,是国内首个支持角色扮演功能的视频模型,同时集成了音画同步、多镜头生成及声音驱动等功能,单次生成视频时长最高支持15秒,分辨率可达1080P。</p><p class="ql-block">现在我用一张照片做一段唱歌的视频,试试。</p> <p class="ql-block">音频要自己去下载,长度不能超过1分钟。</p><p class="ql-block">(站岗是不能唱歌的,50多年前也没有这首歌,别当真)。</p> <p class="ql-block">由于万相2.6的视频时长最多只能做15秒,而有些歌曲过门很长,15秒可能还在过门的音乐之中,那就先要对下载的歌曲进行剪辑处理,把过门剪去,直接唱歌。</p><p class="ql-block">王战友。</p> <p class="ql-block">我接着王战友唱第二句。</p> <p class="ql-block">用万相2.6制作的视频时长最多只有15秒,如果要唱得长一点怎么办?只能是制作2个15秒的视频,把2个视频拼接起来就是30秒。</p><p class="ql-block">张战友。</p> <p class="ql-block">三段拼接,43秒。</p> <p class="ql-block">想像力丰富的多镜头智能,一首歌唱完,镜头能显示从18岁到28岁。</p> <p class="ql-block">多段拼接。</p><p class="ql-block">15秒,口型最同步,如果多个15秒拼接,冗余误差就会累积,造成音频滞后于口型。</p> <p class="ql-block">至于把多个15秒视频拼接的方法有很多,安卓手机图库的功能里就有,操作要点在本文的结尾会有介绍。</p> <p class="ql-block">万相2.6会自动对上口型,需要什么动作,也可以在指令上表达清楚。</p> <p class="ql-block">边唱歌,边动作。是Al自作主张的发挥。</p> <p class="ql-block">时长选择15秒的,配音也选长一些,不超过1分钟就行。</p> <p class="ql-block">这是三个15秒拼接后形成的45秒视频,由于音频只下载了43秒,为了保证视频与音频同步,所以我剪掉2秒,把视频也变成43秒。</p><p class="ql-block">拼接视频我也是初次做,做得不好,中间过渡段有停顿。</p>