GB官方网页在线预览文件下载思路

作者：pk555157815 发布时间：2023-1-24 12:52:52

起因
最近需要在某官方网站下载一些GB/T 及 GB 文件，但是该网站很多文件只提供在线预览功能，通过虚拟打印或者浏览器console的方法貌似也不能实现下载，研究了一下预览页面源码，利用Python写了个小工具来下载pdf，希望和论坛的大神交流一下思路。
预览页面源码分析
关键部分是3层结构，第2层即为每个存储每个页面内容的源码，第3层出现了名为bg 的 url 链接。

1.png (164.56 KB, 下载次数: 0)
下载附件
2022-12-23 23:21 上传

打开链接下载的图片，发现疑似将每个pdf页面进行了分割后重新排列。

2.png (167.45 KB, 下载次数: 0)
下载附件
2022-12-23 23:22 上传

只要能找到重排规律即可恢复每一页pdf内容。

3.png (94.13 KB, 下载次数: 0)
下载附件
2022-12-23 23:22 上传

pdfImg-8-0 代表切割后小图在pdf页面中的位置，应该是第0行，8列
background-position:-240px 0px 代表在分割后合成图（下称：底图）中位置。
根据网页元素分析，小图大小为119*168；

4.png (11.32 KB, 下载次数: 0)
下载附件
2022-12-23 23:23 上传

推测知 bg-position 像素Δ增量应该为120px和169px。
知道上述定位原则后即可对底图进行分割按照重排规律进行组合，最后输出pdf文件即可。
Python代码实现
为避免侵权，只提供图片切割与重排的代码。其余部分可根据思路自行补充。
涉及的库：bs4，pillow，pandas
def ditu_cut(ditu_pic):
# ###
# 将底图切分为119*169的小图片
# :param ditu_pic:pillow.image对象
# :return:
# ###
w, h = ditu_pic.size
col, row = int(w / 120), int(h / 169)
pic_mat = pd.DataFrame(numpy.zeros((row, col)))
for i in range(col):
for j in range(row):
pic_mat.iloc[j, i] = ditu_pic.crop((i * 120, j * 169, i * 120 + 119, j * 169 + 168))
return pic_mat
def page_merge(page_pic, pic_mat, merge_pos, ditu_pos):
# '''
# 将分割的小图合并成每页pdf内容
# :param page_pic: 新建的pdf页面，大小1190*1680
# :param pic_mat: ditu_cut返回的pillow对象组成的dataframe
# :param merge_pos: 小图在pdf每页的位置即col,row
# :param ditu_pos: 小图在底图的位置，即x,y
# :return:
# '''
y, x = int(int(ditu_pos[0]) / 120), int(int(ditu_pos[1]) / 169)
col, row = int(merge_pos[0]) * 119, int(merge_pos[1]) * 168
page_pic.paste(pic_mat.iloc[x, y], (col, row))

5.png (864.67 KB, 下载次数: 0)
下载附件
2022-12-23 23:41 上传

代码怎么弄都不对，可以看图片。
备注
经过测试，该网站提供了在线预览功能的文件，均能通过此方式进行下载。
我也不太专业，如果有Bug，可以集思广益一起优化。

下载次数, 页面

相关帖子

340621 2023-1-24 12:53:42

pk555157815 发表于 2022-12-24 10:26
可以截图，但是页数多的话，每次截图都挺麻烦的。ps:主要我也没找到合适的长截图工具
faststone的长截图就不错，而且可以圈定范围

pk555157815

OP

2023-1-24 12:54:34

绯红の光发表于 2022-12-24 13:45
感谢分享，不过油猴一个 Wenku Doc Downloader 的脚本可以直接下载，安装后左侧界面有个下载为PDF，点击直 ...
好东西，了解了，感谢

wzg01 2023-1-24 12:55:34

楼主厉害

GTR022 2023-1-24 12:56:05

楼主V5 太厉害了慢慢学习

yiguodunbuxia 2023-1-24 12:56:41

厉害，佩服佩服

ysjd22 2023-1-24 12:57:25

谢谢。试试

xinxirong 2023-1-24 12:58:12

截图是不是更快？

pk555157815

OP

2023-1-24 12:58:48

xinxirong 发表于 2022-12-24 10:17
截图是不是更快？
可以截图，但是页数多的话，每次截图都挺麻烦的。ps:主要我也没找到合适的长截图工具

yzjtxwd 2023-1-24 12:59:26

学习一下

GB官方网页在线预览文件下载思路

相关帖子

浏览过的版块

热门主题

搬运——360清理优化 V14 2025.11 纯净典藏

聊聊你们黑五的战果。

头条搜索给居然成网站最大流量来源

收录不显示时间你们有没有遇到？

CCS老24刀100G SSD 这款今天补货了

类似x-ui的ui简单管理一键脚本的还有哪些呢

dedirock在哪里发帖加流量？

开发了 OpenAdServer，一个 Python 的定向

MacOS 上输入法中日英三语切换有啥好用的方

clash 订阅转 surge 订阅

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

GB官方网页在线预览文件下载思路

相关帖子

浏览过的版块

热门主题

搬运——360清理优化 V14 2025.11 纯净典藏

聊聊你们黑五的战果。

头条搜索给居然成网站最大流量来源

收录不显示时间你们有没有遇到？

CCS老24刀100G SSD 这款今天补货了

类似x-ui的ui简单管理一键脚本的还有哪些呢

dedirock在哪里发帖加流量？

开发了 OpenAdServer，一个 Python 的定向

MacOS 上输入法中日英三语切换有啥好用的方

clash 订阅转 surge 订阅

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告