做了一个自然语音生成的 AI 模型，大家提点意见 ...

作者：Simon95 发布时间：2023-10-24 19:09:28

自己做了一个语音生成的网站，www.zideai.com
不是普通的文字转语音，支持克隆声线，并且生成出来的是自然语音，就是没有机械感。
语音模型是自己写的，自己训练的
和大模型结合做了个 Demo ，感觉这种交互模态不错，起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
网站上也可以体验下，但部署的 GPU 有限，有可能进不去。
用的 webrtc 直连 GPU ，延迟在 3s 左右，后面再优化语音模型可以做到对话零延迟。
优势：
1. 接近于真人的自然发声，包括停顿，韵律等。
2. 可以用一段 3s 的语音克隆声线，视频里有展示。
3. 全中文数据训练的，所以说话没有老外的感觉。
4. 模型可以支持多语言，就是用日语的声音生成中文的语音（暂时还没训练）。
缺点：
1. 生成可能还不太稳定，声线容易跑偏。
2. 很耗 GPU ，是传统语音生成的很多倍。
后续：
训练成本太高了，一个人做吃不消。。。不知道有没有前景，可以的话出一些硬件。比如智能音箱？和手办对话？大家给点意见。

语音, 生成, 模型, GPU

相关帖子

dasvenxx 2023-10-24 19:10:25

天这个太自然了！

passerby233 2023-10-24 19:11:24

棒！

maocat 2023-10-24 19:12:12

虽然是痴心妄想，但我还是想问，开源吗/dog

Simon95

OP

2023-10-24 19:12:49

@maocat 我也想开，但是和大佬们的没法比，主要是数据比较多而已。。。

scp3041 2023-10-24 19:13:28

训练成高的化，多买点显卡，本地训练不行吗，比云 GPU 便宜很多吧

Simon95

OP

2023-10-24 19:14:12

@scp3041 买不起，百万起的东西。

qweruiop 2023-10-24 19:14:54

op 开源下呗，学习学习。。。

xming 2023-10-24 19:15:45

英语能行吗

jifengg 2023-10-24 19:16:22

中文效果很好，继续关注

做了一个自然语音生成的 AI 模型，大家提点意见

相关帖子

浏览过的版块

热门主题

注册完codex账户无法直接使用?

老坛的板子们，你们做法人，还在零申报么，

人有多大胆，地有多大产？某头部域名商自己

360必应也在玩AI生成

研究同行是最低级的玩法！

【晒图】单NTFS分区，G4E引导，双镜像RAMOS

今天发现迅雷下载也偷偷安装迅雷游戏，这种

有没有做geo的老板

开机必上4414，简单说下我是怎么看4414和26

Lume 简单干净，一目了然的轻论坛程序刚刚

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

做了一个自然语音生成的 AI 模型，大家提点意见

相关帖子

浏览过的版块

热门主题

注册完codex账户无法直接使用?

老坛的板子们，你们做法人，还在零申报么，

人有多大胆，地有多大产？某头部域名商自己

360必应也在玩AI生成

研究同行是最低级的玩法！

【晒图】单NTFS分区，G4E引导，双镜像RAMOS

今天发现迅雷下载也偷偷安装迅雷游戏，这种

有没有做geo的老板

开机必上4414，简单说下我是怎么看4414和26

Lume 简单干净，一目了然的轻论坛程序刚刚

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告