做了一个 AI 原生的文档记忆与检索工具，方便各位做 Age ...

现在 AI+的工作还挺常见的，就像大佬们说的，“所有行业的产品可能都会用 AI 重新做一遍”。最常见的就是各种 agent ，说要用 AI 改造传统软件啥的，代替人类专家去处理海量的复杂资料、进行深度分析并做出决策。
举个例子，法律行业的“合同合规审查 Agent”。
大型企业每天有成百上千份采购合同、销售合同需要法务审核，排队时间长，还容易看走眼。现在虽然有了 AI ，但把文件一股脑全丢给它是不现实的，且不说烧 token 的问题，这些文档里有无数的跨行、跨列单元格表格，普通工具一拉，表格数据全串行了。偏偏这行对数据的精确性要求又很高，一旦 AI 看错一个小数点，对企业造成的损失都是天文数字。
所以，给法律行业开发一个能干活，还确保正确率的法务 Agent ，没有这么容易。
我们先来盘点一下法务 Agent 的任务：
1. 日常巡检：只要有新合同上传，Agent 就会自动触发。
2. 深度条文检索：它会把新合同跟国家最新的法律法规、公司的标准风控库进行逐条比对。
3. 自动修改与撰写：如果发现某一条款违反了公司规定，它不单单会报错，还会自己调用重写工具，查阅公司的历史修改模板，自动把这一条法言法语修改成合格的文本，最后打包发给总法务官审批。
这里面首先就涉及了两点：长期稳定的记忆和精细的导航。
想要实现这两点，传统的解析工具难免有点水土不服，要么解析结果不尽人意，要么太重不方便调用。这时候就需要一个专业的、AI-native 的解析工具，把复杂的表结构和章节层级完整还原出来。我做的工具 Knowhere 就是干这个的： https://knowhereto.ai/?utm_source=v2ex
它能把复杂量大的文件，解析成按章节、按次序分类的 JSON ，尤其是令 AI 头大的 PDF 、PPT 、图片、表格等格式文件。其次它会把解析好的文档进行结构化，重建文档的标题树，从一级标题到二级、三级，每一块文本都会被挂载到对应的章节路径上。表格和图片也不是单独抽出来当独立附件，而是和内联的上下文文本牢牢绑定，确保 AI 能看到“这张表格是属于哪一段话”。
最后它还会构建一个包含章节树、文本块、摘要、图像描述以及跨文档链接的轻量级记忆图谱，方便 AI 检索和查找，不用每用一次都要上传一次了。
装了这个插件之后，agent 的表现会比使用原始文档的时候“正常”很多，我们亲测准确度是有提升 25%以上，在同类产品中是效果最好的。
之后再给法务 Agent 分配任务的时候，它就会自己调用 Knowhere 进行审核了，如果它发现某些数据对不上，还能顺着 Knowhere 提供的记忆图谱返回去重新查验证据，确保交出来的合同，每个数据都是可追溯、可查验的。
当然，不只是做法律行业的 agent ，像金融、医疗、企业内网等历史问题比较多，资料比较复杂的场景的 AI 应用，都可以用得上。无论历史文档有多么稀奇古怪、排版脏乱差，Knowhere 都能帮 AI 解析得井井有条，在节省 token 的同时，帮 AI 把活干好。
如果有在做 agent 开发的老哥，欢迎使用，我们现在已经开源了，大家多多评论反馈哈，我会及时改进的： https://github.com/Ontos-AI/knowhere

做了一个 AI 原生的文档记忆与检索工具，方便各位做 Agent 开发的老哥

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则