实时对话场景下怎么做 rag 不影响响应速度(最佳实践)

查看 20|回复 1
作者:rizon   
#背景  
如果是一个不在意响应速度的场景,不在意成本的情况下。每句回复之前都可以做一次记忆召回,不过实际这样召回也不对,因为可能会导致重复召回的问题,所以还需要更多判断。有经验的大佬可以顺便分享一下这个点。
不过我想问的是,在实时对话,也就是期望保持低延迟的语音对话中,该如何触发记忆召回呢。
我能想到的就是 2 个方法:
1 ,前置一个小模型做意图判断是否需要召回记忆。
2 ,模型里加入一个召回记忆的 tool ,靠模型自己判断。
不过这个只解决了召回时机的问题,还需要解决召回速度,比如混合关键词检索等。
#问题
所以我的问题就是,
1 ,关于召回时机这里有什么好的最佳实践吗?
2 ,关于召回速度提升有什么好的方案吗?
3 ,目前有什么做的比较好的适合语音对话的可以直接去集成的产品吗

实时对话, 记忆召回, 响应速度

maolon   
我觉得大部分目前的系统都是采用你说的 2.这个方案,也就是模型自己判断要不要召回。
至于速度问题,其实可以用一些 trick 解决,比如开始召回就会固定/非固定的输出语音,比如“让我想想”,“我回想一下我们聊过的内容”这样的语音来拖时间,一般再怎么搞 300ms 也能召回完成了,而你拖时间的这句话应该会比这个时间长。
我之前产品用的 livekit 他们的服务,你可以去看看。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部