做 AI Agent 的时候发现：说得越多， Agent 越强 ...

最近在做一个语音驱动的 Agent 项目，遇到一个很头疼的问题：
用户说一段话，STT 转出来的文字全是口水词、重复、半句话。直接丢给 LLM 当 prompt ，效果很差——模型不是不聪明，是输入质量太低。
但你用 agent 多了会发现，你给 agent 的上下文越多（特别在 Vibe Coding 场景），模型给出的效果越好。而语言输入又比文字输入的效率高 5 倍左右。
试过自己加一层 LLM 做后处理，能用，但延迟加了 1-2 秒，而且 prompt 调来调去很烦。
然后我就自己做了一个 ASR+LLM 的 benchmark 平台，最后选出了最合适的模型。做了一个类似 typeless 的产品，但这个产品不 2C ，更多的是 2D/2B 。
所以干脆把这层做成了一个独立的 API 服务：Sayd （ sayd.dev ）。核心产品叫 Talk API ，语音进去，直接出 agent-ready 的干净文本。不是单纯的 STT ，而是在转录的同时做了去噪、去口癖、保留意图。
目前跑下来几个数据：
延迟 < 200ms 首字节
支持 60+ 语言，中英混说自动识别
注册送免费额度（ 5 美金），不用绑卡，相当于 40 小时连续对话，日常的话估计可以用个把月了
如果你也在做 AI 硬件、语音助手、Agent 这些方向，欢迎试试，也欢迎提需求和反馈。
链接： https://sayd.dev

做 AI Agent 的时候发现：说得越多， Agent 越强

热门主题

股票下跌会影响你的心情吗，最近股市暴跌我

我的浏览器插件 chatshell 用户数突破 1000

闲来无事开发了个51la浏览器插件

现在 mac 下还有无全局自动填充手机验证码

WiFi Lens：一个 macOS Wi-Fi 频谱分析器

每日一贴：站长一般晚上都几点睡觉

完蛋鸟，我成真电影天堂了，排币，悲剧了！

做个算命网，用AI算命大家觉得怎么样

站长要学会投资，埋头赚钱是没用的

USDT TRC20 怎么用来购物？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则