优化了下自用的本地播客翻译工具,欢迎体验和建议

查看 13|回复 0
作者:R0sin   
TL;DR
之前的版本依赖阿里云做翻译和 TTS ,现在增加了谷歌免费翻译和本地开源 qwen-tts 等渠道来避免厂商依赖。目前自己试听几轮下来效果基本满意,欢迎体验和建议。
快速开始
环境中需要先准备 ffmpeg 和 uv。
# 使用 uv 安装 CLI
uv tool install --torch-backend auto "podtran[qwen-local] @ git+https://github.com/R0sin/podtran"
# 初始化配置,默认路径为 ~/.podtran/config.toml
podtran init
初始化时需要填写 HF_TOKEN,主要为了使用 WhisperX 依赖的开源人声分离模型,引导中有跳转链接。
也可以参考 README 下载源码运行。
安装配置完就能直接用了(首次运行需要下载模型):
# 截取前五分钟测试效果
podtran  --preview
# 跑完整音频翻译流水线
podtran
# 继续上一个中断的任务
podtran resume
下载前也可以先试听我简单测试的效果预览。
补充说明
配置中部分考虑了环境设备,有些还得自己根据使用情况调整优化,手头仅测试了 cpu/3060ti/3090 的 Windows/Linux 环境。家里 3060ti 跑完一小时播客的完整翻译流水线大约用了三十几分钟。
遗憾手头没有 mac ,暂未支持 MLX 部署。
文档可能有遗漏,有问题欢迎反馈,顺便求点 Star ,谢谢!
相关链接
博客记录:https://blog.r0sin.com/podcast-translator-improvement
项目地址:https://github.com/R0sin/podtran
您需要登录后才可以回帖 登录 | 立即注册

返回顶部