做有声读物时， AI TTS 的情绪和口音控制是不是一直很难 ...

最近在折腾把一些偏故事、叙述类的长文本做成有声读物，用途主要是自己听，也可能之后给内容配音用。
一开始以为 TTS 已经挺成熟了，真正用下来才发现，想要“有情绪、有一点口音”的声音，其实挺难的。
主要遇到几个问题：
1.情绪大多只能在 prompt 里简单写，实际听起来变化很生硬
2.口音有时候不是“带点口音”，而是直接变成怪腔怪调
3.长文本生成时，前后语气经常不一致，听久了很出戏
4.分段生成虽然好控制，但整体连贯性又会受影响
期间也试过几种方案，本地模型和一些现成的在线 TTS 都折腾过。本地方案配置成本比较高，调参也挺花时间；在线的很多要么情绪选项很少，要么更适合短句，不太适合整段故事。
目前为了先把流程跑通，暂时用的是一个在线方案（ https://flowspeech.io/），至少在生成速度和情绪、口音的可控性上还算能接受，用来做有声读物的初版还行，但也谈不上完全满意。
想请教下大家：
1.如果是做偏长文本的有声读物，一般是怎么解决情绪一致性的问题的？
2.情绪 / 口音这种需求，是不是本来就不太适合现在的 TTS ？
欢迎分享踩坑经验 🙏

做有声读物时， AI TTS 的情绪和口音控制是不是一直很难？

浏览过的版块

热门主题

[独孤]Win8.1Emb_UWF_PC260623

截图工具 SunnyCapturer v5.3.0

发票闪印 v4.8.3

长期来看，中国未来的经济是什么样的？

[送终身会员] Frset - 精致优雅的 macOS 效

⭐⭐有要抖音万粉号的可以看过

每日一贴：做一部30分钟的短视频，大概需要

现在到底是AI. AIzhan.com这米能卖多少钱?

最近，你们网站还有豆包，问心等ai来源的流

求助，网站被恶意挂了很多垃圾外链咋处理

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则