于是调研了下方案,原本打算古法编程的。
但 gpt5.4 真的远超想象,没那么完美,但已符合我的需求,解决了某些电影字幕无->有的跨越。
核心功能:
ffmpeg 分离音频->VAD 本地模型降噪切片->Whisper 本地模型转录(非翻译)->LLM 大模型翻译
分享给有需要的 v 友
https://github.com/AndySkaura/crosssubtitle-ai/releases/tag/1.0
当前只有 mac arm 版本,win 版本等下周 codex 有额度了再督促它干活儿。
只在本机进行过测试
原本想内置一个 qwen 7b ,但还是太重了,不如用免费不限量的 GLM-4-Flash-250414 。有条件的自己本地部署个小模型吧。



