爬虫问题求助

查看 46|回复 1
作者:yichenchen   
想要爬取一个漫画站点的图片
下图是 urllib.request.Request 然后通过 BeautifulSoup 转化的部分内容,想要其中的图片链接下载图片


然后是通过 requests 下载的一个测试
headers = {
'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-HK,zh;q=0.9,zh-CN;q=0.8,en-US;q=0.7,en;q=0.6',
'Connection': 'keep-alive',
'Origin': 'https://www.comicbox.xyz',
'Referer': 'https://www.comicbox.xyz/',
'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Google Chrome";v="116"',
'sec-ch-ua-mobile': '?0',
'Sec-Fetch-Dest': 'empty',
'Sec-Fetch-Mode': 'cors',
'Sec-Fetch-cors': 'cross-site',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',
}
response = requests.request("GET", url, headers=headers)
if response.status_code == 200:
file = "./HM"
with open('ccc.jpg', 'wb') as f:
f.write(response.content)
f.close()
然而访问是 200 ,同时 response.content 也是有内容的,但是下载后的图片打开却提示文件已损坏
同时查看浏览器的请求信息是发现同一个图片链接访问了两次,并且请求地址和我获取到的地址有变化
https://bmigmi-global.ccavbox.com/break_2/static/upload/book/4683/cover_pc.b_0?t=9
https://bmigmi-global.ccavbox.com/break_2/static/upload/book/4683/cover_pc.b_1?t=9
请问这是该站点采用了某种图片的加密方式吗,我该如何下载这个图片呢

Headers, 图片, 監獄, div

oldshensheep   
加密了解密代码( JavaScript )
async function decrypt(data) {
const toUint8Array = dataString=>Uint8Array.from(dataString, c=>c.charCodeAt(0));
const rawKey = toUint8Array("aaaaaaaaaaaaaaaa");
const iv = toUint8Array("0123456789aaaaaa");
const key = await window.crypto.subtle.importKey("raw", rawKey, "AES-CBC", true, ["encrypt", "decrypt"]);
const result = await window.crypto.subtle.decrypt({
name: "AES-CBC",
iv: iv
}, key, data);
return result;
}
您需要登录后才可以回帖 登录 | 立即注册

返回顶部