后来有了 AI ,我们都以为,哟,高科技来了,要解放了。谁知一读 PDF 就开始胡说八道,分析起报告一堆数据错误。搞科研、学医、金融、数据行业的应该都明白吧。
这是遇上“AI 幻觉”了,因为 AI 只能扫描一些短平快的文字,复杂的格式它是解析不了的,所以你问它这种文档相关的问题,它只能胡乱编一个数据蒙你。
所以我结合之前的项目经验,做出了一个 AI 原生的文档解析工具——Knowhere ,专治“AI 幻觉”。并且今天开源出来给大家。
它能干的事很简单:帮 AI 去解析那些复杂难啃的文档:比方说大文件( 20 页+)、层级多(八章 40 节 120 小点)、格式花的( PDF/Excel/PPT ),通通都能搞定。
你只要安装好 Knowhere 插件,再把文件交给 AI ,AI 就会调用 Knowhere 。
复杂的文档经过 Knowhere 的解析,会变成方便 AI 理解的 JSON 等文件,AI 拿到解析过后的高质量文件切片去做检索和生成,就能给出更精确的回答。
除此之外,Knowhere 还有记忆功能,能把你给它的信息建成一棵“知识树”,在你提问的时候能根据历史跨文档给出答案。
我们实测:
AI 产品感知提升 80%+,上百份文件扫描耗时 10min 内;
Token 消耗降低 50%+,解析效率提升 3 倍+;
多模态信息提取完整度 95%+,复杂表格解析准确率 95%+。
我可以负责任地说,吊打市面上同类产品:
Unstructured:免费版限速严重、定价贵、中文文档效果一般
LlamaParse:强绑 LlamaIndex 生态,云端延迟明显,成本高
MinerU:本地部署依赖地狱,VLM 模式 GPU 要求极高
Docling:首次加载模型 1.5GB ,扫描件 OCR 质量还不如 MinerU
一句话,比 Knowhere 解析好的没它便宜,比 Knowhere 便宜的解析没它好,简直就是性价比拉满。
而且 Knowhere 还是 AI 原生的,更符合 AI Agent 轻量化+高精度的要求。
如果你也在做 AI 应用开发,或者正在被长文档折磨,那不妨试一试 Knowhere 。
求个 Star⭐支持一下,谢谢各位老哥👉 https://github.com/Ontos-AI/knowhere

