@gzlock 自动配音啊 现在自媒体搞得很多垃圾视频都是这么出来的, 先从 youtube 活什么地方搬运, 然后分离声音, 搞个字幕, 再按字幕 AI 配音, 最后再合成 都是 AI 配音, 一个叫云溪的男的声音, 都听过把
其实不用这么麻烦,Azure Speech 可以直接从音频到音频,不需要 STT 再 TTS ,流程如下: Video --> (FFmpeg) Audio Track --> (Azure Speech Service) Speech Translation --> (FFmpeg) Audio Track 2 --> Video 2 当然,如果楼主非要要 AI TTS 播音就另外当别论了