做了一个 AI 原生的文档记忆与检索工具,方便各位做 Agent 开发的老哥

查看 4|回复 0
作者:cxd8190102   
现在 AI+的工作还挺常见的,就像大佬们说的,“所有行业的产品可能都会用 AI 重新做一遍”。最常见的就是各种 agent ,说要用 AI 改造传统软件啥的,代替人类专家去处理海量的复杂资料、进行深度分析并做出决策。
举个例子,法律行业的“合同合规审查 Agent”。
大型企业每天有成百上千份采购合同、销售合同需要法务审核,排队时间长,还容易看走眼。现在虽然有了 AI ,但把文件一股脑全丢给它是不现实的,且不说烧 token 的问题,这些文档里有无数的跨行、跨列单元格表格,普通工具一拉,表格数据全串行了。偏偏这行对数据的精确性要求又很高,一旦 AI 看错一个小数点,对企业造成的损失都是天文数字。
所以,给法律行业开发一个能干活,还确保正确率的法务 Agent ,没有这么容易。
我们先来盘点一下法务 Agent 的任务:
1. 日常巡检:只要有新合同上传,Agent 就会自动触发。
2. 深度条文检索:它会把新合同跟国家最新的法律法规、公司的标准风控库进行逐条比对。
3. 自动修改与撰写:如果发现某一条款违反了公司规定,它不单单会报错,还会自己调用重写工具,查阅公司的历史修改模板,自动把这一条法言法语修改成合格的文本,最后打包发给总法务官审批。
这里面首先就涉及了两点:长期稳定的记忆和精细的导航。
想要实现这两点,传统的解析工具难免有点水土不服,要么解析结果不尽人意,要么太重不方便调用。这时候就需要一个专业的、AI-native 的解析工具,把复杂的表结构和章节层级完整还原出来。我做的工具 Knowhere 就是干这个的: https://knowhereto.ai/?utm_source=v2ex
它能把复杂量大的文件,解析成按章节、按次序分类的 JSON ,尤其是令 AI 头大的 PDF 、PPT 、图片、表格等格式文件。其次它会把解析好的文档进行结构化,重建文档的标题树,从一级标题到二级、三级,每一块文本都会被挂载到对应的章节路径上。表格和图片也不是单独抽出来当独立附件,而是和内联的上下文文本牢牢绑定,确保 AI 能看到“这张表格是属于哪一段话”。
最后它还会构建一个包含章节树、文本块、摘要、图像描述以及跨文档链接的轻量级记忆图谱,方便 AI 检索和查找,不用每用一次都要上传一次了。
装了这个插件之后,agent 的表现会比使用原始文档的时候“正常”很多,我们亲测准确度是有提升 25%以上,在同类产品中是效果最好的。
之后再给法务 Agent 分配任务的时候,它就会自己调用 Knowhere 进行审核了,如果它发现某些数据对不上,还能顺着 Knowhere 提供的记忆图谱返回去重新查验证据,确保交出来的合同,每个数据都是可追溯、可查验的。
当然,不只是做法律行业的 agent ,像金融、医疗、企业内网等历史问题比较多,资料比较复杂的场景的 AI 应用,都可以用得上。无论历史文档有多么稀奇古怪、排版脏乱差,Knowhere 都能帮 AI 解析得井井有条,在节省 token 的同时,帮 AI 把活干好。
如果有在做 agent 开发的老哥,欢迎使用,我们现在已经开源了,大家多多评论反馈哈,我会及时改进的: https://github.com/Ontos-AI/knowhere
您需要登录后才可以回帖 登录 | 立即注册

返回顶部