有没有经常爬虫的大佬帮我解惑(python)

查看 71|回复 4
作者:小黑啊   
   
尝试的网站是
https://stocksnap.io/
(这是个免费图片网站,可能对于大佬来说很简单,勿喷)
思路
1 获取json的url(直接百度,吸取了前人的经验)见图1,但是这个教程里面下载的不是高清图片所以我没有按照这个方案来
2 通过json分析出每个图片主页面的url,如图2
3 进入图片主页面,分析点击free download按钮后执行操作,用python模仿这个操作实现下载,如图2
问题了出现在第三步:
1) 经过分析后找到点击free download后就是发送了个post请求,post请求的data内容我也在浏览器的元素里面找到了如图3(顺便一提,这个需要加cookie,我就直接从浏览器复制的,好像过一段时间需要更新一下,而且不同电脑的cookie还不通用),2 )尝试直接将post请求里面的data复制过来,使用python通过post请求能够成功下载到图片响应状态2003)然后我用python下载到了图2页面的全部代码,拼接出data(前面分析得到的结果),然后下载发现403,4)然后我把拼接出来的data直接放到之前写的用来下载的post请求代码里面反馈也是403,我就觉得是自己data找错了,检查了一下发现代码没错,5)
然后我把这个网址直接放到浏览器里面去打开,打开之后发现居然内容和python获取的页面源码不一样
(主要是
value不一样,但是这个值特别重要
)见图5,浏览器获得的value可以用python写的post请求下载,但是python获取的value不行请大佬指教。




大佬, 如图, 浏览器

wjj   
盲猜是因为_csrf参数校验没通过
千牛   
referer和UA呢
尽量保证header头一致
小黑啊
OP
  

千牛 发表于 2023-3-28 23:45
referer和UA呢
尽量保证header头一致

referer没加,只加了UA
小黑啊
OP
  

wjj 发表于 2023-3-28 23:37
盲猜是因为_csrf参数校验没通过

什么意思,没明白啊,那要怎么才能校验通过
您需要登录后才可以回帖 登录 | 立即注册

返回顶部