求助关于声音模型的问题!

查看 7|回复 0
作者:春天小雨   
最近在开发遇到需要使用声音克隆,然后调用克隆声音的问题。
目前我使用别人的整合包,都是没有API功能,要么就是整合包的调用响应不稳定,我需要响应快速一些的,最好小于1秒的,我查看很多AI直播数字人的都是可以上传一个.pt文件。
但是我始终没有找到这个方案,我使用了阿里的cosyvoice2与GPT-SoVITS发现都是一样,单音频生成没有问题,就是只能界面使用克隆声音,不能像AI一样创建模型,然后给到程序使用。
我想大佬有知道怎么可以处理吗?由于使用到的是克隆声音,并非简单的tts模型,这个方面接触的少,搜索关键词也没有搜索到,基本都是整合包,要么就是官网的代码,并且响应慢,需要在代码运行,一个包就7G-10G,很占用内存。

都是, 声音

您需要登录后才可以回帖 登录 | 立即注册

返回顶部