第一天玩爬虫就遇到 418 恼火 -______------- ...

目标地址： https://search.shopping.naver.com/search/category?adQuery&brand=188869&catId=50000629
分析过程
step1: 国内电信，不用任何代理或 vpn 直接用浏览访问就出现 418 ，初步确定是这个站点封禁国内的。（不知道移动和联通是否也这样）
step2: 启动 vpn 访问用浏览器访问，打开页面正常。
接下来 curl 的奇怪问题
操作系统是: macos-14.5
确定了 curl 终端请求都是会经过代理的
curl 'https://search.shopping.naver.com/search/category?catId=50000630'
尝试 1：在终端：macos-curl 8.6.0 请求返回的是 418
尝试 2: 用 docker-debian-curl 7.52.1 请求返回 200 却是可以成功的
尝试 3: 用 docker-debian-curl 7.88.1 请求返回的是 418
python 和 scrapy 的奇怪问题
确定了请求都是会经过代理的
Python 3.9.6 Scrapy 2.8.0
cookies = {
'NACT': '1',
'NAC': 'bupOBQQrA6vz',
'NNB': 'HTF6RRY7SDCGM',
'BUC': 'fHVI0Qf4gDQah4m9TkLBxmg7BIZvwdowShJv6ZPLiG8=',
'OEP_BUCKET_ID': '1',
'SHP_BUCKET_ID': '9'
}
headers = {
# 'cookie': 'NACT=1; NAC=bupOBQQrA6vz; NNB=HTF6RRY7SDCGM; BUC=fHVI0Qf4gDQah4m9TkLBxmg7BIZvwdowShJv6ZPLiG8=; OEP_BUCKET_ID=1; SHP_BUCKET_ID=9',
'sec-ch-ua': '"Not)A;Brand";v="99", "Microsoft Edge";v="127", "Chromium";v="127"',
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'
}
url = 'https://search.shopping.naver.com/search/category?catId=50000629'
requests.get(url, headers=headers, cookies=cookies)
尝试 python 请求：返回是 200 正常
尝试 scrapy 请求：返回是 418 失败

第一天玩爬虫就遇到 418 恼火 -______-------

浏览过的版块

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则