如何大规模检索PDF中的图像

作者：godvij 发布时间：2024-6-12 21:04:07

我的需求是，平时看许多古籍类的PDF工具书，但市面上对古籍转变成文字的支持度不高，因为古籍格式是从上到下，从右到左。能不能假定某些汉字是图像，而通过某个软件实现实现图像找图像？
其实我感觉ADOBE,已经很接近我的需求了，但它始终是以文字对图像，结果转的一踏糊涂。他在转文字后，会问某个图像是不是某些文字。但可选项太低。如果能在这个基础上实现智能化，在加一个索引也能实现我的需求。

图像, 文字

相关帖子

freelive 2024-6-12 21:04:51

试试那些AI识别的网站，或许效果更好。

godvij

OP

2024-6-12 21:05:43

freelive 发表于 2024-6-12 16:41
试试那些AI识别的网站，或许效果更好。
唉，我在想想招吧.

lsbdx 2024-6-12 21:06:22

这个工作量有点大，可以使用Tesseract-ocr，用它训练新词库，建立图片与文字的映射关系
具体可以参考：
Tesseract-ocr训练新词库记录及资料整理
https://zhuanlan.zhihu.com/p/691719582
Tesseract-OCR的简单使用与训练
https://blog.csdn.net/weixin_44143876/article/details/134485827

如何大规模检索PDF中的图像

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

如何大规模检索PDF中的图像

相关帖子

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告