①个人认为该网站的图片不是很好看,所以只是简单的爬取学习一下,代码简单,只爬取一页内容
②因为网页不能直接获取到源码,是通过脚本加载出来的,所以使用到了selenium、requests库,这就需要安装chrome driver
2、网站
网址:https://www.tupianzj.com/bizhi/qingchunmeinv/
image.png (558.31 KB, 下载次数: 0)
下载附件
2023-2-4 13:54 上传
通过requests直接请求获得如下所示,说明网页是通过了脚本加载的
image.png (64.13 KB, 下载次数: 0)
下载附件
2023-2-4 13:49 上传
然后通过selenium获取网页源码
解析html直接提取出图片链接
最后用requests请求图片网址,下载图片并保存到项目下的img/beautiful_girl/路径,需要自己创建该路径
3、源码
[Python] 纯文本查看 复制代码import requests
from selenium import webdriver
from lxml import etree
import time
option = webdriver.ChromeOptions()
option.add_argument('headless')
web = webdriver.Chrome(chrome_options=option) # don't open webdriver
web.get('https://www.tupianzj.com/bizhi/qingchunmeinv/')
#获取网页代码
element = web.page_source
#print(web.title,element)
html = etree.HTML(element)
list = html.xpath('//*[@id="container"]/div/div/div[3]/div/ul/li/a/img/@src')
print(list)
n = 1
for i in list:
response_img = requests.get(i)
list_name = html.xpath(f'//*[@id="container"]/div/div/div[3]/div/ul/li[{n}]/a/label/text()')
print(list_name)
with open("img//"+"beautiful_girl//"+list_name[0]+".jpg",mode='wb') as f:
f.write(response_img.content)
print("Done!",list_name[0],n)
n = n + 1
time.sleep(1)
web.quit()
4、效果
image.png (685.94 KB, 下载次数: 0)
下载附件
2023-2-4 13:56 上传