理论上对于离散的数据,也就是搜索词不是紧靠在一起的情况,trie 搜索不到吧。 在 OP 的网页上试了一下,感觉不符合一般的搜索习惯。 比如说正常搜索阿里公司 名叫马云的人,输入阿里 马云就搜不到,实际上这条记录是存在的。
AI 用的是向量数据库.... OpenAI 提供的知识库自训练 embeddings 数据可以直接存进向量数据库里去 https://platform.openai.com/docs/guides/embeddings/frequently-asked-questions Trie 在 AI 里不能说毫无用处,起码也是没有屌用,ana 和 anal 两个词可是天差地别
@maggch97 @pkoukk 跟 ai 的关系是:例如用户问 Q10G 电视是否效果好? trie 很快能搜到很多 Q10G 电视及评价,送给大模型判断。实际的型号可能是 tcl 75q10g, tcl85q10g, 当然你说 elasticsearch 也能搜到,我告诉你同等条件下 trie 更优秀。 跟向量数据库的区别是性能及易用性上的区别,向量数据库的匹配跟 ai 还是差很远,且向量数据库只能是含义上的匹配,就刚才这个 Q10G 电视是否效果好 我怀疑向量数据库能否准确排除非 Q10G 。
@matrix1010 @shyrock 求交集问题是无解的,a 有 10 亿个,b 有 10 亿个,求 a and b, 只能遍历,不要问不可能的问题。 但 ai 解决这种实际问题不难,a 有 10 亿个,加一些背景限制,缩减到 3 万个,遍历就快了。