不知道有啥用,主要自己最近想试试各种 AI 的产品。 首先得有个授权的故事 例如我自己写的 别看代码了,看我啊, 然后用通义千问的语音合成接口来合成 价格大概是 2 万字 1 元,不过合成效果现在还不十分完美。 主要问题两个: [ol] 现在还不支持 SSML 标记语言,切换旁白和角色配音需要不同的 client 调用,导致需要拼接生成的音频节目。 有时候一句话说完收尾好像把最后一个字吞了一点儿。已经和大模型供应商反应了。 [/ol] 试听见下面: