目前我使用别人的整合包,都是没有API功能,要么就是整合包的调用响应不稳定,我需要响应快速一些的,最好小于1秒的,我查看很多AI直播数字人的都是可以上传一个.pt文件。
但是我始终没有找到这个方案,我使用了阿里的cosyvoice2与GPT-SoVITS发现都是一样,单音频生成没有问题,就是只能界面使用克隆声音,不能像AI一样创建模型,然后给到程序使用。
我想大佬有知道怎么可以处理吗?由于使用到的是克隆声音,并非简单的tts模型,这个方面接触的少,搜索关键词也没有搜索到,基本都是整合包,要么就是官网的代码,并且响应慢,需要在代码运行,一个包就7G-10G,很占用内存。