pdf 是 mindshare 的书籍(出版时间大概 2000 年),看起来每个单词都是可以复制的,但是复制出来却是乱码。 用了好几种编辑器打开,复制都是乱码:wps 、SumatraPDF 、adobe reader 、zerote 。 网上看的方法: https://www.bilibili.com/read/cv23470141/ 查看了字体类型,去网站里搜,也搜不到。 PS:之前用 python 想读取这个 pdf 里面的内容,发现是程序读取出来都是乱码的。结果发现复制 都是乱码的。。 复制, PDF, 读取, 码
@kokutou #2 @amiwrong123 要真是这样的话,OP 直接考虑 OCR 吧,不要考虑从数字层面读取了。 可以看看 https://github.com/hiroi-sora/Umi-OCR