上传视频,分离音轨,音轨翻译,字幕合成,最后合并回视频。 音轨分离合并:ffmpeg 音轨转文字:whisper 文字翻译:Azure Translator 文字转音频:Azure text2speech 用 Python ,费用 2k ,不能预支,能搞的留下 base64 。 音轨, Azure, 文字, 分离
ffmpeg -i input-video.avi -vn -acodec copy audio.aac whisper audio.aac --model medium --output_format vtt -o . Azure Translator 没用过 Azure text2speech 也没用过,话说把翻译后的字幕转音频是啥需求?帮视频配音? 正巧前两个需求我都用过,帮楼主省了有 1k 吧,[滑稽
@shalingye 难度是不高 这活其实问下 chatgpt 基本就完成 70%工作量, 剩下调试下脚本就通了 但 lz 估计是要搞个网页的, 那活就没底了, 还得搞页面,css ,html , 前端一堆玩意