薅羊毛赚客吧0818爬虫有奖活动 python 思路与实现 ...

作者：zigzag 发布时间：2024-4-17 21:04:51

个人版本python==3.8.6  requests==2.31.0
要点思路:
分析网页结构
如果
urls = [f'http://www.0818tuan.com/list-1-{i}.html' for i in range(0,11)]
改成
urls = [f'http://www.0818tuan.com/list-1-{i}.html' for i in range(0,90)]
爬取的活动会更多一点，时效性会差一点
知识点：
列表是一个有序的集合，可以包含任意类型的元素，并且可以通过索引访问。
字典是一个无序的集合，它存储键值对（key-value pairs），其中键是唯一的，可以用来查找与之相关联的值。
取随机数
正则（难点）
写入文件[Python] 纯文本查看复制代码#python==3.8.6#requests==2.31.0
#[] 创建了一个空列表（list）。列表是一个有序的集合，可以包含任意类型的元素，并且可以通过索引访问。
#{} 创建了一个空字典（dictionary）。字典是一个无序的集合，它存储键值对（key-value pairs），其中键是唯一的，可以用来查找与之相关联的值。
#取随机数
#写入文件
import requests
import re
import csv
# 生成链接列表
urls = [f'http://www.0818tuan.com/list-1-{i}.html' for i in range(0,11)]
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
}
matches = []
for url in urls:
# 发送HTTP GET请求
response = requests.get(url, headers=headers)
# 确保请求成功
if response.status_code == 200:
      # 注意：这里的正则表达式需要根据实际的HTML结构进行调整
      matches_temp = re.findall(r'[d\/](\d{7,}).html" target="_blank" title="([\u4e00-\u9fa5].*)" ', response.text)
      matches.extend(matches_temp)  # 将找到的匹配项添加到matches列表中
# 初始化空字典来存储URL和标题的配对
match_dict = {}
# 遍历matches列表构建字典
for match in matches:
match_id = match[0]
match_title = match[1]
url = f"http://www.0818tuan.com/xbhd/{match_id}.html"
match_dict[url] = match_title
with open("爬取结果.csv", 'w', newline='', encoding="GBK",errors='ignore') as f:
writer = csv.writer(f)
writer.writerow(['url链接', '标题'])  # 写入表头
# 遍历字典并写入匹配结果
for url, title in match_dict.items():
      writer.writerow([url, title])

是一个, 字典

薅羊毛赚客吧0818爬虫有奖活动 python 思路与实现

相关帖子

浏览过的版块

热门主题

杭州开抓电瓶车

现在国内都是怎么培养程序员的，前有质疑 m

出88VIP权益网易云黑胶48优酷芒果会员39饿

京东价保新套路

问一个关于 AirPods 很笨的问题

台式机内存条预计什么时候价格会回落呀

26 款 icar v23 401 两驱版本和零跑 c10 这

claude code 如何避免封号

iphone17 短信莫名消失，大家遇到过吗？

这两天给项目搭建了 Grafana，确实是非常赞

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则