假设要合成 60 秒的视频,总共有 6 张图片,每张图片大约 10 秒种,对应 2-3 句话,每句话有一个 mp3 文件,有一段文本(字幕)要显示在图片上,切换图片时有点转场效果。 就这么一个任务,GPT4 跟狗屎一样说的全都不对,一运行就各种错。 有各种方案: a 方案: 每个图片和它的 mp3 生成一个视频,然后 6 个视频连接,然后总视频加上字幕; b 方案: 所有 mp3 连接得到总音频,6 个图片生成总视频,然后总音频,总字幕加到总视频上; 我一点经验没有,让 gpt4 实现转场就没有一个达到目地的,说的全都不对。 我很奇怪,这应该是最基础的需求,为何 ffmpeg 的开发者就想不到让人轻松点
视频自动化处理类似图片处理,你要先用 photoshop 把想要的完全流程做出来。 每一个步骤叫 action ,拼接一起叫 edtior script 然后才能用变量替换法,导出 automate bench 自动化处理的脚本。