大型 Trie 树数据库的尝试,期望在 RAG 系统中发挥作用

查看 318|回复 24
作者:bigtang   
搜索了天工 AI, perplexity, GPT4, 全世界尚无一个独立的商业 Trie 树数据库产品。
http://xt.tanglib.com/ 是一个 Trie 树数据库,上线半年,还是很稳定的。
大型 Trie 树数据库是有难度的( xt.tanglib.com 的文本数据接近 1T ,单机应该算大型了),否则早就诞生了。
Trie 树数据库相对于 ElasticSearch 倒排索引数据库有一些独特优势,例如速度更快,可以支持插入删除。
最近流行 RAG 系统,特发帖在 v2ex, 期待愿意用 Trie 树数据库的项目来谈合作。
欢迎大家体验这个 Trie 树数据库。
科普一下,Trie 数据库特点:
对于 "abcdefgh", Trie 树数据库可以搜索 “abc", "abcde", "bcdef", "cdefgh", "defg" 等任意连续序列,适合提供素材。
在 RAG 系统中,AI 与 Trie 树数据库结合应该是很完美的,Trie 树数据快速提供素材,AI 综合判断逻辑。
miniliuke   
科普一下,Trie 数据库特点:
对于 "abcdefgh", Trie 树数据库可以搜索 “abc", "abcde", "bcdef", "cdefgh", "defg" 等任意连续序列,适合提供素材。
在 RAG 系统中,AI 与 Trie 树数据库结合应该是很完美的,Trie 树数据快速提供素材,AI 综合判断逻辑。
buaasoftdavid   
你不会是索引结构是字典树就叫 Trie 树数据库吧......
bigtang
OP
  
没有诞生的原因有没有一种可能是因为这是个伪需求?
cowcomic   
楼上你心目中的 Trie 树数据库是什么样的?
知乎上有个问题:Trie 树非常适合索引结构,怎就没人用于数据库引擎?
https://www.zhihu.com/question/643972502/answer/3393671711
bigtang
OP
  
之前做过基于 Trie 树的内存级词匹配
感觉 trie 树的构建对于内存的消耗还是挺大的
而且搜索感觉是 Trie 树的逆向使用呢,好奇怎么做的
fakepoet   
@cowcomic 看来研究过 trie:) @buaasoftdavid 有可能是,如果 chatgpt3 不出来,整个 AI 都是“伪需求”
maggch97   
小小的鸡毛一下,可以叫 `Trie` 或者叫 `字典树`,但是 `Trie 树` 有点语义问题。
maggch97   
额额,只能搜索精确子序列,不知道怎么硬和 ai 扯上关系的
存储也是 26 倍普通结构…
yeekal   
@maggch97 子串,26 还是只有小写字母的情况
您需要登录后才可以回帖 登录 | 立即注册

返回顶部