想做有声小说声音克隆, 3060Ti 能扛得住吗?

查看 32|回复 3
作者:EasonIndie   
V 友们好,最近想自己做一个 中文有声小说项目,希望呻吟自然流畅、语气生动、有停顿、笑声这些表达。
目标是 克隆自定义声音(我自己或一些受欢迎的配音),然后批量生成小说音频。
💡 我的需求大致是:
[ol]
  • 先克隆/微调一个中文声音,让声音自然、不机械。
  • 风格希望像相声那种“说学逗唱”的语气——要能控制节奏、停顿、情绪。
  • 后期做有声小说输出
    [/ol]
    🖥️ 当前设备配置:
  • CPU:R5 5600G
  • 内存:32GB DDR4
  • 显卡:暂未购买,考虑 RTX 3060 ( 12GB ) 或 RTX 3060Ti ( 8GB )大概就是 2000 元价位的
  • 系统:Windows / Ubuntu 都能装(开发环境可切换)

    🔧 初步技术路线:
    我目前查下来主要有两条思路:
    [ol]

  • 快速上手路线(生成类)
  • 使用 Suno Bark 或类似大模型,直接生成多情感中文语音;
  • 适合先试效果、调节 prompt 实现“相声语气”;
  • 缺点是声音不一定稳定、不可控。

  • 高可控路线(训练类)
  • 管线:Speaker Encoder → VITS / Coqui-TTS → HiFi-GAN ;
  • 录制 20 ~ 60 分钟高质量音频做微调;
  • 目标是克隆稳定音色、能生成自然语调的中文语音;
  • 支持 prosody / style token 控制节奏语气。

    [/ol]
    计划在本地用 PyTorch + CUDA 训练/推理,显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。
    ❓ 想请教 V 友们:
    [ol]

  • 3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务?
  • 听说显存容量在 TTS 场景下比算力更关键,想听下大家的实测经验。

  • 如果只做轻量微调(不从零训练),3060Ti 是否足够?

  • 有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目?
  • 推理速度和显存占用大概怎样?
  • 有没有推荐的显存优化技巧?

  • 对于“相声风格”的语音,有没有成熟的风格迁移或 prosody 控制方法?
    [/ol]
    ✅ 目标:
    能在家用机上稳定生成相声风格的有声小说音频,自己做声音模型和后期,长期迭代。
    大家有做过类似声音克隆 / 本地 TTS 项目的,求分享经验和显卡选型建议 🙏

    声音克隆, TTS, 3060TI

  • weixind   
    声音大概可以。
    呻吟就不知道了。
    EasonIndie
    OP
      
    @weixind 打错了,不过声音都行了,呻吟也不在话下吧

    Kg01   
    你这小说正经不
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部