求教本地大量零碎文件,如何快速检索文件内容。

查看 32|回复 4
作者:collo   
各位彦祖,请教一下。
我本地有大量零碎文件,大概是 csv ,xlsx ,pdf ,eml ,html 之类的,大部分是文本,但是内部格式都不同。
文件大概 4T ,可预见的未来,还会增加。
我现在是使用 anytxt 来检索,但是 2T 之后检索速度就下降了,有时候一次检索要等几十秒,而且高级检索不支持正则,有些刁钻点的检索就不行了。
也试了一下 dnGrep ,支持正则搜索功能强大,但是不预建索引,每次检索要搜索一次,而且中文 pdf 好像要弄插件,也没有弄了。
也稍微看了下 Elasticsearch ,但是感觉数据导入有点麻烦。
请问下,是否有更好的方法来解决这个问题?
630071099   
Everything
JerryYuan   
elasticsearch 最初就是程序员给老婆做的菜单检索引擎,也是稀碎的文件一大堆😄
JerryYuan   
创建索引应该简单写个 python 脚本,一律转成纯文本,丢进去分词做倒排索引就行了。目测是 chatgpt 能接受的强度
lzgshsj   
文本内容检索的还有个 https://www.recoll.org ,可以看看
不过 4T 实在是不好说,没折腾过这么多文本
您需要登录后才可以回帖 登录 | 立即注册

返回顶部