做了个入门级的必应壁纸爬虫

作者：hoochanlon 发布时间：2023-5-7 15:01:14

准备工作
bing壁纸网页元素及API分析
词组与时间，可行。
http://www.isummer.cn/#/search?searchVal=森林
http://www.isummer.cn/#/search?searchDate=20230429
格式固定，可作为重命名的选项。
约书亚树国家公园上空的银河，美国加利福尼亚州(© Schroptschop/Getty Images)

图片链接元素定位，将 800x480 换成 1920x1080，可行。

不过，我个人因兴而起，也是因为懒，最后选型是json。

测试过程
直接使用原始的图片地址保存，会带有一些额外的参数或随机字符串，导致无法正确下载或者保存图片。因此，对于这种情况，最好先做好分割，得出实际的图片下载地址，再根据需要合并，得到本地保存名称。
request.json()，它返回HTTP请求正文解析后的JSON对象，使用request.json()方法可以将其转化为Python字典对象。
# 循环获取返回的图片地址
for i in request.json()["data"]["list"]:
# "wpUrl" 字符串中提取出第一个以 & 符号为分隔符的第一个字符串
picture_list = i["wpUrl"].split("&")[0]
# print(picture_list) 返回结果：/th?id=OHR.SouthPadre_ZH-CN8788572569_1920x1080.jpg
# 采取策略：先分割后拼接
picture_name = picture_list.split(".") # 返回结果：['/th?id=OHR', 'SouthPadre_ZH-CN8788572569_1920x1080', 'jpg']
print(picture_name)
通过 3/library/re.split，将列表字串进行进一步分割，将“.”和“_”分割。
picture_name=re.split("[._]", picture_list) # 返回结果：['/th?id=OHR', 'SouthPadre', 'ZH-CN8788572569', '1920x1080', 'jpg']
初试效果

成型及源码
这回就路径简单做了下跨平台:

macOS： ~/Pictures/bing

Windows：c:/users/用户名/Pictures/bing

附录源码：https://github.com/hoochanlon/ihs-simple/blob/main/d-python/get_bing_wallpapers.py
import requests
import re
import os
# 模拟浏览器请求
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"
}
# getWpList json 部分参数
# data = {
#    "pageNum": 1,
#    "pageSize": 9
# }
# 循环3次，即从首页到第三页
# "pageNum" 页码；pageSize，最多9张图。
for i in range(4):
data = {
      "pageNum": i,
      "pageSize": 9
}
# 请求图片网站API，调用json参数
request = requests.post('http://www.isummer.cn/x_site/wp/getWpList', json=data, headers=headers)
# 拼接用户主目录下的 Pictures 文件夹路径
default_pictures_dir = os.path.join(os.path.expanduser("~"), "Pictures")
# 拼接成指定保存的图片目录
picture_path = os.path.join(default_pictures_dir, "bing")
# 如果目录不存在则创建
if not os.path.exists(picture_path):
      os.makedirs(picture_path)
# 测试现象
# /th?id=OHR.Popocatepetl_ZH-CN5483138337_1920x1080.jpg&rf=LaDigue_1920x1080.jpg&pid=hp
# 循环获取返回的图片地址
for i in request.json()["data"]["list"]:
      # "wpUrl" 字符串中提取出第一个以 & 符号为分隔符的第一个字符串
      picture_list = i["wpUrl"].split("&")[0]
      # print(picture_list) 返回结果：/th?id=OHR.SouthPadre_ZH-CN8788572569_1920x1080.jpg
      # 采取策略：先分割后拼接
      # picture_name = picture_list.split(".") # 返回结果：['/th?id=OHR', 'SouthPadre_ZH-CN8788572569_1920x1080', 'jpg']
      picture_name=re.split("[._]", picture_list)
      # 拼接图片保存路径
      save_path = os.path.join(picture_path, f"{picture_name[1]}.{picture_name[4]}")
      # 请求图片的下载地址
      request = requests.post(f'https://cn.bing.com{picture_list}')
      # 保存图片到本地
      with open(save_path, "wb") as f:
         f.write(request.content)
      print("下载完成:" + save_path)

在线测试
python -c "$(curl -fsSL https://ghproxy.com/https://raw.githubusercontent.com/hoochanlon/ihs-simple/main/d-python/get_bing_wallpapers.py)"

图片, 第一个

做了个入门级的必应壁纸爬虫

相关帖子

浏览过的版块

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

做了个入门级的必应壁纸爬虫

相关帖子

浏览过的版块

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告