实时对话场景下怎么做 rag 不影响响应速度（最佳实践） ...

作者：rizon 发布时间：2025-11-4 08:46:25

#背景
如果是一个不在意响应速度的场景，不在意成本的情况下。每句回复之前都可以做一次记忆召回，不过实际这样召回也不对，因为可能会导致重复召回的问题，所以还需要更多判断。有经验的大佬可以顺便分享一下这个点。
不过我想问的是，在实时对话，也就是期望保持低延迟的语音对话中，该如何触发记忆召回呢。
我能想到的就是 2 个方法：
1 ，前置一个小模型做意图判断是否需要召回记忆。
2 ，模型里加入一个召回记忆的 tool ，靠模型自己判断。
不过这个只解决了召回时机的问题，还需要解决召回速度，比如混合关键词检索等。
#问题
所以我的问题就是，
1 ，关于召回时机这里有什么好的最佳实践吗？
2 ，关于召回速度提升有什么好的方案吗？
3 ，目前有什么做的比较好的适合语音对话的可以直接去集成的产品吗

实时对话, 记忆召回, 响应速度

maolon 2025-11-4 08:47:16

我觉得大部分目前的系统都是采用你说的 2.这个方案，也就是模型自己判断要不要召回。
至于速度问题，其实可以用一些 trick 解决，比如开始召回就会固定/非固定的输出语音，比如“让我想想”，“我回想一下我们聊过的内容”这样的语音来拖时间，一般再怎么搞 300ms 也能召回完成了，而你拖时间的这句话应该会比这个时间长。
我之前产品用的 livekit 他们的服务，你可以去看看。

实时对话场景下怎么做 rag 不影响响应速度（最佳实践）

热门主题

终于水成五勋章大元帅了，威武！

明明已经是最新系统了，为什么还收到更新提

以前购买20元永久香港虚拟主机，没有想到现

老显卡GTX1080目前用哪个版本驱动好？

景安BA的域名，可以随便绑定二级域名在景安

谁说百度收录差，百度蜘蛛最大的爱好是这类

听说鸡排哥凉了！确实没刷到啥这网红视频了

百度开启裁员：传赔偿N+3.5，应届生也被裁

AI开始取代人工了，惠普宣布裁员6000人

（SHEIN）“返乡”南京

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则