求教本地大量零碎文件，如何快速检索文件内容。

查看 182|回复 4

作者：collo 发布时间：2024-12-18 16:05:11

各位彦祖，请教一下。
我本地有大量零碎文件，大概是 csv ，xlsx ，pdf ，eml ，html 之类的，大部分是文本，但是内部格式都不同。
文件大概 4T ，可预见的未来，还会增加。
我现在是使用 anytxt 来检索，但是 2T 之后检索速度就下降了，有时候一次检索要等几十秒，而且高级检索不支持正则，有些刁钻点的检索就不行了。
也试了一下 dnGrep ，支持正则搜索功能强大，但是不预建索引，每次检索要搜索一次，而且中文 pdf 好像要弄插件，也没有弄了。
也稍微看了下 Elasticsearch ，但是感觉数据导入有点麻烦。
请问下，是否有更好的方法来解决这个问题？

630071099 2024-12-18 16:05:54

Everything

JerryYuan 2024-12-18 16:06:47

elasticsearch 最初就是程序员给老婆做的菜单检索引擎，也是稀碎的文件一大堆😄

JerryYuan 2024-12-18 16:07:26

创建索引应该简单写个 python 脚本，一律转成纯文本，丢进去分词做倒排索引就行了。目测是 chatgpt 能接受的强度

lzgshsj 2024-12-18 16:07:56

文本内容检索的还有个 https://www.recoll.org ，可以看看
不过 4T 实在是不好说，没折腾过这么多文本

求教本地大量零碎文件，如何快速检索文件内容。

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

求教本地大量零碎文件，如何快速检索文件内容。

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告