如果是一个不在意响应速度的场景,不在意成本的情况下。每句回复之前都可以做一次记忆召回,不过实际这样召回也不对,因为可能会导致重复召回的问题,所以还需要更多判断。有经验的大佬可以顺便分享一下这个点。
不过我想问的是,在实时对话,也就是期望保持低延迟的语音对话中,该如何触发记忆召回呢。
我能想到的就是 2 个方法:
1 ,前置一个小模型做意图判断是否需要召回记忆。
2 ,模型里加入一个召回记忆的 tool ,靠模型自己判断。
不过这个只解决了召回时机的问题,还需要解决召回速度,比如混合关键词检索等。
#问题
所以我的问题就是,
1 ,关于召回时机这里有什么好的最佳实践吗?
2 ,关于召回速度提升有什么好的方案吗?
3 ,目前有什么做的比较好的适合语音对话的可以直接去集成的产品吗

