2.影视二创内容有解说的音轨还有时不时的视频的原生在里面,还包括一些环境音
3.考虑大模型的方案将解说的音轨提出来,然后文本化,并且生成字幕流
4.将提出来的字幕流的文本进行多语种翻译,对翻译质量还是有要求,不能是简单的冰冷的翻译,这里我想依然可以用大模型来做.
5.多语言的字幕流使用大模型再次生成高质量的语音,成为匹配字幕流的音轨
6.将音轨和原先的内容的环境音轨进行合并,生成多个多语言的二创短视频
以上目前来说是否可以利用各家的 AI 大模型的能力搭积木组合到一起?目的就是为了搬运视频到海外各平台