行标网站文件下载

作者：pk555157815 发布时间：2024-5-7 23:11:52

适用于“行业标准信息服务平台”网站文件下载

"

[Python] 纯文本查看复制代码# coding=utf-8
import os
import argparse
import requests, shutil
import PIL.Image as pimg
from lxml import etree
def mk_tmp():
'''
创建临时文件夹
:return:
'''
try:
      os.mkdir('temp')
except:
      shutil.rmtree('temp', True)
      os.mkdir('temp')
def main_process(file_id,pic_index=0):
mk_tmp()
while True:
      db_web = f'https://hbba.sacinfo.org.cn/hbba_onlineRead_page/{file_id}/{pic_index}.png'
      r = requests.get(db_web, headers=headers)
      print(f'page:{pic_index},status:{r.status_code}')
      if r.status_code == 404:
         print('complete!')
         break
      else:
         with open('./temp/' +  f'{pic_index}.png', 'wb') as f:
            f.write(r.content)
         pic_index += 1
def get_filename(file_id):
name_web = f'https://hbba.sacinfo.org.cn/stdDetail/{file_id}'
r = requests.get(name_web, headers=headers)
html_element = etree.HTML(r.text)
xpath_filename = '//h4/text()'
filename = html_element.xpath(xpath_filename)[0].strip('\r\n\t')
print(filename)
return filename
if __name__ == '__main__':
file_id = 'e99f8d17284a5e920923b11911b2f0b1df9ca7e1b6d177b9a7e71ba5390bf573'
headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.46'
}
parser = argparse.ArgumentParser(description="Download DB file with file_id on the website")
parser.add_argument('-f', '--file_id', type=str, help='file_id',required=True)
parser.add_argument('-p','--pic_index', type=int, help='pic_index',default=0)
args = parser.parse_args()
filename = get_filename(args.file_id)
main_process(args.file_id,args.pic_index)
sources = []
file_list = os.listdir('./temp')
sources = [pimg.open(f'./temp/{i}.png') for i in range(len(file_list))]
sources[0].save(f'./{filename}.pdf', 'pdf', save_all=True, append_images=sources[1:])
## 使用方法
1.获取文件file_id

获取file_id

2.命令行使用方法

-h 显示方法使用帮助
-f 后跟file_id
-p 后跟pic_index（下载起始页，默认为0，可缺省）
3.下载文件

4.最终输出结果为文件名.pdf，输出路径为python文件同级目录。

文件, 网站

相关帖子

ZhjhJZ 2024-5-7 23:12:36

大佬，做个软件吧

lemonatalk952 2024-5-7 23:13:35

暂时不用，先收藏

Qim626 2024-5-7 23:14:18

Python 写的很好，实用。

wpdzdx 2024-5-7 23:15:16

工具很好可是小白不会用呀在什么平台下能使用

ztgzs 2024-5-7 23:16:12

感谢分享很实用

howyouxiu 2024-5-7 23:17:05

感谢分享，网站拿走了

zym01zym 2024-5-7 23:17:47

感谢分享

pk555157815

OP

2024-5-7 23:18:18

wpdzdx 发表于 2024-5-1 08:43
工具很好可是小白不会用呀在什么平台下能使用
安装python3.0以上版本，通过pip工具安装 lxml，PIL库，即可使用啦

pk555157815

OP

2024-5-7 23:18:49

ZhjhJZ 发表于 2024-4-30 21:48
大佬，做个软件吧
小工具打包反而挺麻烦的，直接安装python3.0以上版本，通过pip工具安装 lxml，PIL库，即可使用啦

行标网站文件下载

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

行标网站文件下载

相关帖子

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告