做了一个自然语音生成的 AI 模型,大家提点意见

查看 165|回复 17
作者:Simon95   
自己做了一个语音生成的网站,www.zideai.com
不是普通的文字转语音,支持克隆声线,并且生成出来的是自然语音,就是没有机械感。
语音模型是自己写的,自己训练的
和大模型结合做了个 Demo ,感觉这种交互模态不错,起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
网站上也可以体验下,但部署的 GPU 有限,有可能进不去。
用的 webrtc 直连 GPU ,延迟在 3s 左右,后面再优化语音模型可以做到对话零延迟。
优势:
1. 接近于真人的自然发声,包括停顿,韵律等。
2. 可以用一段 3s 的语音克隆声线,视频里有展示。
3. 全中文数据训练的,所以说话没有老外的感觉。
4. 模型可以支持多语言,就是用日语的声音生成中文的语音(暂时还没训练)。
缺点:
1. 生成可能还不太稳定,声线容易跑偏。
2. 很耗 GPU ,是传统语音生成的很多倍。
后续:
训练成本太高了,一个人做吃不消。。。不知道有没有前景,可以的话出一些硬件。比如智能音箱?和手办对话?大家给点意见。

语音, 生成, 模型, GPU

dasvenxx   
天 这个太自然了!
passerby233   
棒!
maocat   
虽然是痴心妄想,但我还是想问,开源吗/dog
Simon95
OP
  
@maocat 我也想开,但是和大佬们的没法比,主要是数据比较多而已。。。
scp3041   
训练成高的化,多买点显卡,本地训练不行吗,比云 GPU 便宜很多吧
Simon95
OP
  
@scp3041 买不起,百万起的东西。
qweruiop   
op 开源下呗,学习学习。。。
xming   
英语能行吗
jifengg   
中文效果很好,继续关注
您需要登录后才可以回帖 登录 | 立即注册

返回顶部