分享一下自用的播客翻译工具

TL;DR
去年通勤时想听一些国外的播客，vibe search 了一圈好像没啥特别钟意的播客翻译工具，后来本地跑了个简陋的 ASR + 翻译 + TTS 的流水线应付了下。
年初 qwen3-tts 发布后便有心让 AI 搓一个方便复用的工具，最近抽空薅 OpenAI Codex 羊毛做了个 CLI 自己用着感觉还可以。为了快速跑通和效果稳定，TTS 直接用的阿里云服务，后续有空或者需求的话再支持本地模型部署或者其他渠道。
快速开始
首先需要准备一个阿里云的 API Key：https://www.alibabacloud.com/help/zh/model-studio/get-api-key。
环境中还需要安装 ffmpeg。
# 使用 uv 安装 CLI
uv tool install git+https://github.com/R0sin/podtran
# 初始化配置，默认路径为 ~/.podtran/podtran.toml
podtran init
初始化时需要填写 HF_TOKEN，主要为了使用 WhisperX 的人声分离模型，引导中有跳转链接。
初始化完成后可以在配置文件中修改 ASR 模型配置，默认是 cpu 跑的参数。
安装完依赖就能用了：
# 截取前五分钟跑流水线
podtran --preview
# 跑完整音频翻译流水线
podtran
套壳所以原生支持 mp4 等媒体格式输入。
其他 CLI 用法可以参考 README 和 help 信息。
其他补充

默认配置是音色克隆的方式和模型，因为试了预置的音色都情感拉满，不适合播客。

翻译模式按照个人偏好默认设置为穿插播放，15s 或者说话人变更后会插入翻译，主要是为了锻炼下口语听力。

博客链接中有段简短片段可以试听效果。

欢迎使用和提建议，有用的话麻烦点个 star ，谢谢！
也欢迎分享一些有意思的播客频道。
可能的迭代方向

支持多渠道（翻译/音色克隆/TTS ）

支持音乐人声分离（如效果明显）

支持其他交互（前端/GUI/Skills ）

支持广告过滤

相关链接
博客原文：https://r0sin.pages.dev/podcast-translator-cli（需代理访问）
GitHub：https://github.com/R0sin/podtran

分享一下自用的播客翻译工具

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

分享一下自用的播客翻译工具

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告