如何大规模检索PDF中的图像

作者：godvij 发布时间：2024-6-12 21:04:07

我的需求是，平时看许多古籍类的PDF工具书，但市面上对古籍转变成文字的支持度不高，因为古籍格式是从上到下，从右到左。能不能假定某些汉字是图像，而通过某个软件实现实现图像找图像？
其实我感觉ADOBE,已经很接近我的需求了，但它始终是以文字对图像，结果转的一踏糊涂。他在转文字后，会问某个图像是不是某些文字。但可选项太低。如果能在这个基础上实现智能化，在加一个索引也能实现我的需求。

图像, 文字

相关帖子

freelive 2024-6-12 21:04:51

试试那些AI识别的网站，或许效果更好。

godvij

OP

2024-6-12 21:05:43

freelive 发表于 2024-6-12 16:41
试试那些AI识别的网站，或许效果更好。
唉，我在想想招吧.

lsbdx 2024-6-12 21:06:22

这个工作量有点大，可以使用Tesseract-ocr，用它训练新词库，建立图片与文字的映射关系
具体可以参考：
Tesseract-ocr训练新词库记录及资料整理
https://zhuanlan.zhihu.com/p/691719582
Tesseract-OCR的简单使用与训练
https://blog.csdn.net/weixin_44143876/article/details/134485827

如何大规模检索PDF中的图像

相关帖子

浏览过的版块

热门主题

不服是吗？进来！

【每日一问】当年你高考有父母陪吗？

我一心想送外卖，不想动脑子了。。。

图片去水印，这么简单的问题，但是...

多端应用大家喜欢用哪个

我教大家一个自信的方法（很管用）

凡是出售日收教程的，全部都是片子。

www.1mt.com 兄弟们这域名值多少钱？

刚买了个华为手机，上面有个跨应用关联，卧

某款手机很霸道啊，想用自己的账号登录一切

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

如何大规模检索PDF中的图像

相关帖子

浏览过的版块

热门主题

不服是吗？ 进来！

【每日一问】当年你高考有父母陪吗？

我一心想送外卖，不想动脑子了。。。

图片去水印，这么简单的问题，但是...

多端应用大家喜欢用哪个

我教大家一个自信的方法（很管用）

凡是出售日收教程的，全部都是片子。

www.1mt.com 兄弟们这域名值多少钱？

刚买了个华为手机，上面有个跨应用关联，卧

某款手机很霸道啊，想用自己的账号登录一切

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

不服是吗？进来！

在 Yoo趣儿投放广告