批处理_PDF转图片,提取PDF的图片和文本(基于Xpdf4.04)230421再更新

查看 143|回复 9
作者:nide312   
提醒一下:此批处理命令程序没有ocr文字识别功能。
也可以使用 Adobe Acrobat Pro DC 实现这些功能。
拖拽一个文件前需注意:文件名和文件路径最好都不能含有“^”、“&”、“=”、“;”、“,”符号,不然可能会导致处理失败或一闪而过。
拖拽多个文件前需注意:文件名和文件路径最好都不能含有“^”、“&”、“)”、“=”、“;”、“,”符号,不然可能会导致处理失败或一闪而过。
更新日志:
230413更新:
现在简体中文PDF的文本提取不乱码了。
230413晚上再更新:
添加了一个Xpdf推荐的简体中文字体,现在PDF转图片就不会缺少文字的显示了。
230419更新:
添加两个“拖拽多个PDF文件”的批处理。
230421再更新:
处理后生成的文本和图片分成了几个不同文件夹(txt提取的文本、提取的图片、转换后的图片)。
首先、双击“!先运行我(只需运行1次).bat”批处理。
一、PDF转图片:把一个或多个pdf文件拖拽到“拖拽一个[多个]PDF文件于此(PDF转图片).bat”批处理上,输入PDF密码(没有密码直接按回车键)。
二、提取PDF的图片和文本:把一个或多个pdf文件拖拽到“拖拽一个[多个]PDF文件于此(提取图片和文本).bat”批处理上,输入PDF密码(没有密码直接按回车键)。
(其中文本保存为UTF-8编码)
生成的文件都保存在pdf文件夹下。


20230421 0先运行的.png (86.48 KB, 下载次数: 0)
下载附件
2023-4-21 18:56 上传



20230421 a.png (80.13 KB, 下载次数: 0)
下载附件
2023-4-21 18:56 上传



20230421 b.png (77.93 KB, 下载次数: 0)
下载附件
2023-4-21 18:56 上传

网盘下载:
https://pan.baidu.com/s/1HlgmOEunzwxsVrGPAvQoxg?pwd=s8qr
提取码:s8qr
https://down666.lanzoul.com/b01knsxef
密码:46rl

批处理, 多个

cnshy   

感谢大神分享,辛苦了
不过提取图片成文本,文本里面好像是乱码
nide312
OP
  


cnshy 发表于 2023-4-3 21:42
感谢大神分享,辛苦了
不过提取图片成文本,文本里面好像是乱码
[贴图错误,请阅读“贴图帮助” ...

230413更新:
现在简体中文PDF的文本提取不乱码了。
另外,Adobe Acrobat Pro DC也不会乱码。
lee_qian   

这个有用,可以提取文本。谢谢!!
inthepeace   

厉害了,下载来看看。
huobingqilin   

感谢分享,这个有用,谢谢
lcg888   


cnshy 发表于 2023-4-3 21:42
感谢大神分享,辛苦了
不过提取图片成文本,文本里面好像是乱码
[贴图错误,请阅读“贴图帮助” ...

我去 你这图是贴了个寂寞
奠爱   

感谢分享,这个有用,谢谢
ok667   

这个有用,可以提取文本。谢谢!!
cnshy   


nide312 发表于 2023-4-3 21:51
我自己试的几个PDF没有出现乱码的情况

嗯嗯,可能是我PDF的问题,辛苦了~
您需要登录后才可以回帖 登录 | 立即注册

返回顶部