实时对话场景下怎么做 rag 不影响响应速度（最佳实践） ...

作者：rizon 发布时间：2025-11-4 08:46:25

#背景
如果是一个不在意响应速度的场景，不在意成本的情况下。每句回复之前都可以做一次记忆召回，不过实际这样召回也不对，因为可能会导致重复召回的问题，所以还需要更多判断。有经验的大佬可以顺便分享一下这个点。
不过我想问的是，在实时对话，也就是期望保持低延迟的语音对话中，该如何触发记忆召回呢。
我能想到的就是 2 个方法：
1 ，前置一个小模型做意图判断是否需要召回记忆。
2 ，模型里加入一个召回记忆的 tool ，靠模型自己判断。
不过这个只解决了召回时机的问题，还需要解决召回速度，比如混合关键词检索等。
#问题
所以我的问题就是，
1 ，关于召回时机这里有什么好的最佳实践吗？
2 ，关于召回速度提升有什么好的方案吗？
3 ，目前有什么做的比较好的适合语音对话的可以直接去集成的产品吗

实时对话, 记忆召回, 响应速度

maolon 2025-11-4 08:47:16

我觉得大部分目前的系统都是采用你说的 2.这个方案，也就是模型自己判断要不要召回。
至于速度问题，其实可以用一些 trick 解决，比如开始召回就会固定/非固定的输出语音，比如“让我想想”，“我回想一下我们聊过的内容”这样的语音来拖时间，一般再怎么搞 300ms 也能召回完成了，而你拖时间的这句话应该会比这个时间长。
我之前产品用的 livekit 他们的服务，你可以去看看。

实时对话场景下怎么做 rag 不影响响应速度（最佳实践）

浏览过的版块

热门主题

国产英伟达，摩尔把上市融资的75亿元拿去买

✅DMIT 三网 GIA CMIN2 MALIBU EB 维多利亚

有MJJ遇到过TG号全部设备都被登出了吗？

【快讯】HostHatch Seoul HH 新节点首尔

Hk-One-0.5G-52-LS 少量放貨速度

公司项目分享：硅谷人工智能公司 Nexa AI

拿到了 300 来部短剧的海外发行版权，下一

长话短说大家觉得花三十万结婚，存款花完

建议拉黑 IObit 旗下所有软件

重度苹果用户投华做了两面派

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则