用Python的Scrapy爬彼岸网的图片

作者：到底爱不爱我不发布时间：2024-5-9 17:00:39

前置操作

[Python] 纯文本查看复制代码pip install scrapy
# 创建项目
scrapy startproject bian
# 在项目下创建爬虫文件
scrapy genspider -t crawl bian_pic https://pic.netbian.com

编写爬虫代码

[Python] 纯文本查看复制代码# settings.py
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
ROBOTSTXT_OBEY = False
LOG_LEVEL = "ERROR"
CONCURRENT_REQUESTS = 32
ITEM_PIPELINES = {
"bian.pipelines.BianPipeline": 300,
}
[Python] 纯文本查看复制代码# items.py
class BianItem(scrapy.Item):
href = scrapy.Field()
title = scrapy.Field()
src = scrapy.Field()
[Python] 纯文本查看复制代码# bian_pic.py
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from bian.items import BianItem
class BianPicSpider(CrawlSpider):
name = "bian_pic"
# allowed_domains = ["pic.netbian.com"]
base_url = "https://pic.netbian.com"
start_urls = [
      "https://pic.netbian.com/4kdongman",
      "https://pic.netbian.com/4kyouxi",
      "https://pic.netbian.com/4kmeinv",
      "https://pic.netbian.com/4kfengjing",
      "https://pic.netbian.com/4kyingshi",
      "https://pic.netbian.com/4kqiche",
      "https://pic.netbian.com/4krenwu",
      "https://pic.netbian.com/4kdongwu",
      "https://pic.netbian.com/4kzongjiao",
      "https://pic.netbian.com/4kbeijing",
      "https://pic.netbian.com/pingban",
      "https://pic.netbian.com/shoujibizhi",
]
link = LinkExtractor(restrict_xpaths='//*[@class="page"]/a')
rules = (Rule(link, callback="parse_item", follow=True),)
def parse_item(self, response):
      a_list = response.xpath('//*[@class="slist"]/ul/li/a')
      for a in a_list:
         if a.xpath('./@target').extract_first():
            href = a.xpath('./@href').extract_first()
            item = BianItem()
            item["href"] = href
            yield scrapy.Request(url=self.base_url + href, callback=self.parse_detail)
def parse_detail(self, response):
      src = response.xpath('//*[@id="img"]/img/@src').extract_first()
      title = response.xpath('//*[@id="img"]/img/@title').extract_first()
      item = BianItem()
      item["src"] = self.base_url + src
      item["title"] = title
      yield item
[Python] 纯文本查看复制代码# pipelines.py
class BianPipeline:
fp = None
def open_spider(self, spider):
      print("开始写入爬虫文件")
      self.fp = open("pic.txt", "w", encoding="utf-8")
def process_item(self, item, spider):
      self.fp.write(item["title"] + " | " + item["src"] + "\n")
      return item
def close_spider(self, spider):
      print("写入爬虫完成结束")
      self.fp.close()

结语

[Python] 纯文本查看复制代码因为在公司无聊写的，所以爬到的数据直接写到文件中了，不敢download图片怕流量异常。有兴趣的可以在pipelines中写下载文件的方法

代码, 爬虫

相关帖子

paypojie 2024-5-9 17:01:36

感觉楼主可以把帖子移步到编程语言区

qwe5333515 2024-5-9 17:02:26

看不懂围观一下

pastorcd 2024-5-9 17:03:16

谢谢楼主分享

到底爱不爱我不

OP

2024-5-9 17:04:14

paypojie 发表于 2024-5-9 15:47
感觉楼主可以把帖子移步到编程语言区
是要在那个版块再发一贴吗？还是说该贴可以编辑？

modlive 2024-5-9 17:05:01

呃，还以为进错区了嘞，背手昂头假装懂路过……

stone102 2024-5-9 17:05:38

专业的水文?

niluelf 2024-5-9 17:06:10

其实可以@管理帮忙转移~这个帖子明显不是用来水的~

八月初三 2024-5-9 17:06:43

留在这也挺好让水货们见见世面

xn2113 2024-5-9 17:07:21

paypojie 发表于 2024-5-9 15:47
感觉楼主可以把帖子移步到编程语言区
这不就在编程语言区嘛

用Python的Scrapy爬彼岸网的图片

相关帖子

浏览过的版块

热门主题

为什么总有人开车时喜欢把手伸到窗户外面

最近招聘，发现一个很奇怪的现象

为什么其他城市不学习上海严抓交通违法增加

部门搬家了，能否申请劳动调解，留在旧址

便携屏有人用过吗

如何让台式机主板的雷电 4 输出独显画面到

注意，cloudcone的 DC02活动是没有3个ipv6

出DO 3配空号 PP注册

IOS26 有没有好用的网速显示软件

我也用 AI 写了一个程序员独立开发三件套“

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

用Python的Scrapy爬彼岸网的图片

相关帖子

浏览过的版块

热门主题

为什么总有人开车时喜欢把手伸到窗户外面

最近招聘，发现一个很奇怪的现象

为什么其他城市不学习上海严抓交通违法增加

部门搬家了，能否申请劳动调解，留在旧址

便携屏有人用过吗

如何让台式机主板的雷电 4 输出独显画面到

注意，cloudcone的 DC02活动是没有3个ipv6

出DO 3配 空号 PP注册

IOS26 有没有好用的网速显示软件

我也用 AI 写了一个程序员独立开发三件套“

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

出DO 3配空号 PP注册

在 Yoo趣儿投放广告