小白第一次尝试爬取电脑壁纸

作者：PLA-heart 发布时间：2023-1-24 12:51:09

作为一个潜水好久的小白，最近突然想搞点壁纸，就去学了一下爬虫，实现的是爬取wallhaven该网站的壁纸，因为不想要其他像手机端之类的的壁纸，就把壁纸长度限制在了我电脑的分辨率1920x1080,其他参数想改的可以根据网页访问请求信息自己修改，可以去浏览器重新获取一下菜鸡一个，请大家多多指教{:1_893:}
如果代码不可用了，可能是因为header里面的cookie失效了，可以找图片中的修改试试

QQ截图20221227195909.png (771.86 KB, 下载次数: 0)
下载附件
2022-12-27 19:59 上传

# !/usr/bin/env python
# -*- coding:utf-8 -*-
# @FileName  :wallhaven_demo.py
# @Time    :2022/12/27 11:51
# @Author :Mr_Ren
import os
import time
import requests
from pyquery import PyQuery
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
# os.environ["TF_CPP_MIN_LOG_LEVEL"]='1' # 这是默认的显示等级，忽略所有信息
os.environ["TF_CPP_MIN_LOG_LEVEL"] = '2'  # 忽略 warning 和 Error
# os.environ["TF_CPP_MIN_LOG_LEVEL"]='3' # 忽略 Error
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
"cookie":"_pk_id.1.01b8=a8be8d7f7ae37b1a.1672112746.; _pk_ses.1.01b8=1; XSRF-TOKEN=eyJpdiI6InJkYVFyZ0tJZHlUMmxKZCtDRjNhS0E9PSIsInZhbHVlIjoiR3paVG5KUnNOaTg1a3RmNHF6NXJqaFpsVHNUeXo5YWY2RzlDOFJ4b1dCeDdvV29CMDNPZ29zWWhqUld3TEgyUiIsIm1hYyI6ImQyM2EwZjQwYWU4YjM1N2E2ZDk2MTk1ZDZmMTY4YWQ2ZDVhZjRkZTE4NDM4ZDFmN2E1OGQ5YWU3NjQ1NzE4ODUifQ==; wallhaven_session=eyJpdiI6IndSZHJXYklNME00R25ScVFhNEN5cUE9PSIsInZhbHVlIjoiZGxJa290QkpkTmRaZ3NWZW5GbkR1aE8zZ1hMNE02bjFzWHJISkRBdGVqaW1XUUFFRGFLNDlcL2lQTlZpWVZnOFoiLCJtYWMiOiIyYTg4Y2MzODY2ZTEwYjE4ZjkyMzEzMjNjNDE3ZmNjNGZiYzhiMWY1NDdjYWJiZDA3YWM2ZWU2OTc5YjkwZjA0In0="
}
#设置参数比如分辨率其他的可自行探索
params = {
"resolutions":"1920x1080"
}
# 获取html
def get_html_info(page):
# f是format函数的缩写, 用于格式化输出。
url = f'https://wallhaven.cc/search?categories=111&purity=100&topRange=1M&sorting=toplist&order=desc&page={page}'
resp = requests.get(url,headers=headers,params=params)
resp_html = resp.content
# print(resp_html)
return PyQuery(resp_html)
if __name__ == "__main__":
#要爬取的页数
count = 10
#图片名
cnt = 1
for i in range(count):
      html = get_html_info(i)
      pic_urls = []
      # 获取当前页所有缩略图包含的信息
      items = html("#thumbs >  .thumb-listing-page > ul > li").items()
      for item in items:
         # 获取存放在缩略图信息中的缩略图原图网址
         url = item("a").attr("href")
         pic_urls.append(url)
         # print(url)
      for pic_url in pic_urls:
         resp = requests.get(pic_url, headers=headers)
         html = PyQuery(resp.content)
         # 获取id为wallpaper的img标签里面是src属性也就是原始图片
         final_url = html("#wallpaper").attr("src")
         pic = requests.get(final_url, headers=headers).content
         if not os.path.exists("Wallhaven"):
            os.mkdir("Wallhaven")
         # 因为爬取的图片名字是乱字母，就以数字作为名
         with open("Wallhaven/" + str(cnt) + final_url[-4:], "wb") as f:
            f.write(pic)
            print("第" + str(cnt) + "张图片下载完毕")
            cnt = cnt + 1
      #防止一次性爬太多 ip被封了
      time.sleep(2)
print("爬取结束")

壁纸, 缩略图

相关帖子

xinliu 2023-1-24 12:51:52

似乎不需要cookie啊。。。
而且你爬的是缩略图啊。。。。
缩略图：https://th.wallhaven.cc/small/9d/9d6wg8.jpg
原图：https://w.wallhaven.cc/full/9d/wallhaven-9d6wg8.jpg
找不同替换一下。。。。

xinliu 2023-1-24 12:52:32

llyaomo 发表于 2022-12-28 09:03
很棒，必应壁纸是不是还有更高的分辨率，1080当下略微不足
可以看看api文档
https://www.apifox.cn/apidoc/shared-961673e6-161d-4129-88b6-e7b0a3b86cf1/doc-1696238

chesion001 2023-1-24 12:53:03

欢迎来爬我的壁纸网站：https://www.bimg.cc/

King1993 2023-1-24 12:54:03

xinliu 发表于 2022-12-27 23:47
欢迎来爬我的壁纸网站：https://www.bimg.cc/
你这里的壁纸简直太棒了。不用到处找壁纸了

uno668 2023-1-24 12:54:42

很棒，谢谢

ofw 2023-1-24 12:55:13

好东西，谢谢分享

markdik31 2023-1-24 12:56:04

xinliu 发表于 2022-12-27 23:47
欢迎来爬我的壁纸网站：https://www.bimg.cc/
通过JS文件动态加载的

kdroid27 2023-1-24 12:57:04

谢谢大神的教导，分享

zrfxcndsxue0606 2023-1-24 12:57:39

很有用，学习一下

小白第一次尝试爬取电脑壁纸

相关帖子

浏览过的版块

热门主题

想要布局GEO优化的老板，进来啦

百度到底咋做啊？

看这费用牙疼，年底花钱的地方真多

外链和友情那个效果好？？？

什么域名商注册cn是看不到真实的Whois的？

www.yunxuninfo.com 腾讯云的域名交易平台

4414有个谁的签名是蜘蛛池出售的？

国内的大企业如果做生意不讲诚信，中国人给

有卖百度知道高等级账号的吗

突然之间用不了

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

小白第一次尝试爬取电脑壁纸

相关帖子

浏览过的版块

热门主题

想要布局GEO优化的老板，进来啦

百度到底咋做啊？

看这费用牙疼，年底花钱的地方真多

外链和友情那个效果好？？？

什么域名商注册cn是看不到真实的Whois的？

www.yunxuninfo.com 腾讯云的域名交易平台

4414有个谁的签名是蜘蛛池出售的？

国内的大企业如果做生意不讲诚信，中国人给

有卖百度知道高等级账号的吗

突然之间用不了

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告