我本地有大量零碎文件,大概是 csv ,xlsx ,pdf ,eml ,html 之类的,大部分是文本,但是内部格式都不同。
文件大概 4T ,可预见的未来,还会增加。
我现在是使用 anytxt 来检索,但是 2T 之后检索速度就下降了,有时候一次检索要等几十秒,而且高级检索不支持正则,有些刁钻点的检索就不行了。
也试了一下 dnGrep ,支持正则搜索功能强大,但是不预建索引,每次检索要搜索一次,而且中文 pdf 好像要弄插件,也没有弄了。
也稍微看了下 Elasticsearch ,但是感觉数据导入有点麻烦。
请问下,是否有更好的方法来解决这个问题?