做 AI Agent 的时候发现:说得越多, Agent 越强

查看 14|回复 0
作者:teaguexiao   
最近在做一个语音驱动的 Agent 项目,遇到一个很头疼的问题:
用户说一段话,STT 转出来的文字全是口水词、重复、半句话。直接丢给 LLM 当 prompt ,效果很差——模型不是不聪明,是输入质量太低。
但你用 agent 多了会发现,你给 agent 的上下文越多(特别在 Vibe Coding 场景),模型给出的效果越好。而语言输入又比文字输入的效率高 5 倍左右。
试过自己加一层 LLM 做后处理,能用,但延迟加了 1-2 秒,而且 prompt 调来调去很烦。
然后我就自己做了一个 ASR+LLM 的 benchmark 平台, 最后选出了最合适的模型。做了一个类似 typeless 的产品,但这个产品不 2C ,更多的是 2D/2B 。
所以干脆把这层做成了一个独立的 API 服务:Sayd ( sayd.dev )。核心产品叫 Talk API ,语音进去,直接出 agent-ready 的干净文本。不是单纯的 STT ,而是在转录的同时做了去噪、去口癖、保留意图。
目前跑下来几个数据:
延迟 < 200ms 首字节
支持 60+ 语言,中英混说自动识别
注册送免费额度( 5 美金),不用绑卡,相当于 40 小时连续对话,日常的话估计可以用个把月了
如果你也在做 AI 硬件、语音助手、Agent 这些方向,欢迎试试,也欢迎提需求和反馈。
链接: https://sayd.dev
您需要登录后才可以回帖 登录 | 立即注册

返回顶部