目标是 克隆自定义声音(我自己或一些受欢迎的配音),然后批量生成小说音频。
💡 我的需求大致是:
[ol]
[/ol]
🖥️ 当前设备配置:
🔧 初步技术路线:
我目前查下来主要有两条思路:
[ol]
快速上手路线(生成类)
高可控路线(训练类)
[/ol]
计划在本地用 PyTorch + CUDA 训练/推理,显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。
❓ 想请教 V 友们:
[ol]
3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务?
如果只做轻量微调(不从零训练),3060Ti 是否足够?
有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目?
对于“相声风格”的语音,有没有成熟的风格迁移或 prosody 控制方法?
[/ol]
✅ 目标:
能在家用机上稳定生成相声风格的有声小说音频,自己做声音模型和后期,长期迭代。
大家有做过类似声音克隆 / 本地 TTS 项目的,求分享经验和显卡选型建议 🙏