做了整整 7 年,但今天决定开源|专治 AI 幻觉的解析引擎拿去用吧

查看 17|回复 1
作者:cxd8190102   
之前在读博的时候,会遇到很多复杂的资料,以前没有 AI ,都是自己捣鼓一些小工具去辅助处理的,慢慢地就形成了一个稳定的解析项目雏形,但也只有身边的人在用。
后来有了 AI ,我们都以为,哟,高科技来了,要解放了。谁知一读 PDF 就开始胡说八道,分析起报告一堆数据错误。搞科研、学医、金融、数据行业的应该都明白吧。
这是遇上“AI 幻觉”了,因为 AI 只能扫描一些短平快的文字,复杂的格式它是解析不了的,所以你问它这种文档相关的问题,它只能胡乱编一个数据蒙你。
所以我结合之前的项目经验,做出了一个 AI 原生的文档解析工具——Knowhere ,专治“AI 幻觉”。并且今天开源出来给大家。
它能干的事很简单:帮 AI 去解析那些复杂难啃的文档:比方说大文件( 20 页+)、层级多(八章 40 节 120 小点)、格式花的( PDF/Excel/PPT ),通通都能搞定。
你只要安装好 Knowhere 插件,再把文件交给 AI ,AI 就会调用 Knowhere 。
复杂的文档经过 Knowhere 的解析,会变成方便 AI 理解的 JSON 等文件,AI 拿到解析过后的高质量文件切片去做检索和生成,就能给出更精确的回答。
除此之外,Knowhere 还有记忆功能,能把你给它的信息建成一棵“知识树”,在你提问的时候能根据历史跨文档给出答案。
我们实测:

  • AI 产品感知提升 80%+,上百份文件扫描耗时 10min 内;

  • Token 消耗降低 50%+,解析效率提升 3 倍+;

  • 多模态信息提取完整度 95%+,复杂表格解析准确率 95%+。

    我可以负责任地说,吊打市面上同类产品:

  • Unstructured:免费版限速严重、定价贵、中文文档效果一般

  • LlamaParse:强绑 LlamaIndex 生态,云端延迟明显,成本高

  • MinerU:本地部署依赖地狱,VLM 模式 GPU 要求极高

  • Docling:首次加载模型 1.5GB ,扫描件 OCR 质量还不如 MinerU

    一句话,比 Knowhere 解析好的没它便宜,比 Knowhere 便宜的解析没它好,简直就是性价比拉满。
    而且 Knowhere 还是 AI 原生的,更符合 AI Agent 轻量化+高精度的要求。
    如果你也在做 AI 应用开发,或者正在被长文档折磨,那不妨试一试 Knowhere 。
    求个 Star⭐支持一下,谢谢各位老哥👉 https://github.com/Ontos-AI/knowhere

    解析, 文档, 知识

  • cxd8190102
    OP
      
    项目地址: https://github.com/Ontos-AI/knowhere ,欢迎 PR / issue ,多多反馈~
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部