我的需求是,平时看许多古籍类的PDF工具书,但市面上对古籍转变成文字的支持度不高,因为古籍格式是从上到下,从右到左。能不能假定某些汉字是图像,而通过某个软件实现实现图像找图像? 其实我感觉ADOBE,已经很接近我的需求了,但它始终是以文字对图像,结果转的一踏糊涂。他在转文字后,会问某个图像是不是某些文字。但可选项太低。如果能在这个基础上实现智能化,在加一个索引也能实现我的需求。 图像, 文字
这个工作量有点大,可以使用Tesseract-ocr,用它训练新词库,建立图片与文字的映射关系 具体可以参考: Tesseract-ocr训练新词库记录及资料整理 https://zhuanlan.zhihu.com/p/691719582 Tesseract-OCR的简单使用与训练 https://blog.csdn.net/weixin_44143876/article/details/134485827