python爬虫爬取高清电脑壁纸

查看 153|回复 9
作者:wxxwjy   
学习爬虫一个星期,没看教程自己写了一个
大佬勿喷,多给些鼓励和建议,嘻嘻
网站url: https://bing.ioliu.cn/
用到的库:requests   pyquery  time
第一步:添加用到的库


1671068693101.jpg (15.73 KB, 下载次数: 0)
下载附件
2022-12-15 09:44 上传

第二步:请求到网页拿到源码,就是加了个代{过}{滤}理ip,和请求头(本来想用params添加cookics 和 请求头来着,访问了一下拿不到源码),只加请求头就拿到源码了,有点奇怪。


image.png (31.42 KB, 下载次数: 0)
下载附件
2022-12-15 10:06 上传

第三步:解析源码pyquery真的好简单,直接拿到图片的链接在img的src里,
[color=]有个地方注意一下
直接拿img会多出一条来里边没有src,直接拿img加上class的内容会取不到内容,所以就先取了div又拿到的img


image.png (37.91 KB, 下载次数: 0)
下载附件
2022-12-15 09:53 上传

最后一步:保存和防封ip,都很简单,防封就是让程序休息几秒,刚开始也没什么数就随便写了个2


image.png (30.02 KB, 下载次数: 0)
下载附件
2022-12-15 10:00 上传

自动翻页的代码没加(思路就是查看每页的url得到之间的关系,拼出url再在最外边套一层循环),昨天学了pymongo数据库后期会存到数据库里,到此程序就完成了,这是我分析的第一个网站,在此纪念一下,感谢52pojie论坛给我的知识和分享的喜悦,


1671080955221.png (22.11 KB, 下载次数: 0)
下载附件
2022-12-15 13:08 上传

下载次数, 下载附件

wxxwjy
OP
  

翻页代码在这里了,很简单,把mun图片命名的计数变量拿出来防止名字重复就行了。图片的名字也可从网页源代码里扒拉出来,我没拿有兴趣可以自己试试,只加了前三页哦~


1671072153360.jpg (19.47 KB, 下载次数: 0)
下载附件
2022-12-15 10:42 上传

z1872428255   

感谢分享
chinalihao   

感谢分享
zeh521   

感谢分享
wxxwjy
OP
  

仔细看了pyqery的使用方法    这个img可以直接拿到,img.
class的内容
就可直接拿到了,如果两者之间加了空格就是查找子孙节点class为。。。的节点了
yxx6   

感谢分享
csf2022   

一个星期就学会啦?这么牛的吗?没有一点基础也能做到吗?
wxxwjy
OP
  


csf2022 发表于 2022-12-16 11:51
一个星期就学会啦?这么牛的吗?没有一点基础也能做到吗?

之前没方向,看过两本书,(python基础的一本书写了个小游戏当时)这个还是有用的,(看过B站黑马的C++视频,本科学过c)这俩没大用感觉,其余没了,乱学的多(精神内耗严重)
a2604273891   

感谢,学习了
您需要登录后才可以回帖 登录 | 立即注册

返回顶部