首先来看一下原始数据,可以看到 window.DATA 里面是一大串意义不明的乱码
data:image/s3,"s3://crabby-images/0ce78/0ce787c37d8e44dc7997ffcdd56e388b5aa5cb0f" alt=""
直接全局搜索 window.__DATA__ 然后下断点,刷新页面
data:image/s3,"s3://crabby-images/79c3a/79c3a0ee716e770b5d1b86a4c4ff978a92ca8805" alt=""
进入到 Lt.dispatch 函数内部
data:image/s3,"s3://crabby-images/8677d/8677d79f1d4db0c98559b29dba8db0d8c45feab0" alt=""
这里很明显,r 就是 window.__DATA__,即原始数据,e(t)(n) 意思是原始数据经过了若干个函数的处理
我们进入到函数内部,看看具体做了什么,以及怎么用python来实现相同的功能
第一个函数
首先是 (n) 函数
data:image/s3,"s3://crabby-images/159ab/159ab1ed032b382610d1e7b13ace3b11da807b54" alt=""函数.png)
可以看到里面有好几处处理,我们一个一个来复现
[ol]
data:image/s3,"s3://crabby-images/2aec0/2aec0ec8128fe52bd5be37e2c1f67e842e34d607" alt=""
原始数据r经过e.from函数的处理后,变成了Unit8Array的数据类型,其实就是对原始数据进行 base64 解码
python主要使用base64标准库实现
[/ol]
a = list(base64.b64decode(data))
data:image/s3,"s3://crabby-images/e3be5/e3be5fafed8fd0a2a70d3730e3e92f6c9663a5be" alt=""
从上图可以看到两个的效果都是一样的
[/ol]
s = Math.max(Math.floor((a.length - 2 * i) / 3), 0)
u = a.slice(s, s + i)
这两个就不用多说了,s是地板除(后面的0可以忽视),u是切片操作,python实现:
s = floor((len(a) - 2 * i) / 3)
u = a[s : s + i]
concat是连接的意思,e.concat其实就是对两个数组进行合并操作
[/ol]
a = a[0:s] + a[s + i :]
这一步进行了较多操作,首先是 e.concat([u, e.from(t)]),几次打断点发现 e.from(t) 都是空数组,所以这里结果只有 u数组
然后是 Object(o.hash) 很明显这里是一个hash函数来处理 u,进入到内部看一下
data:image/s3,"s3://crabby-images/50ebc/50ebc230a55b8e835f91d1f6db845f43f6c4d291" alt=""
继续进入 h.default 内部
data:image/s3,"s3://crabby-images/bbadb/bbadb2793c8174bfa1b56ecfcafaa64a502714ab" alt=""
这里就得凭经验来判断了,如果熟悉 xxhash算法(传送门),下方红框处的五个magic constants应该就会很眼熟,对照五个常数,确认是64位的xxhash算法
data:image/s3,"s3://crabby-images/f262e/f262ee35e5a8c9e5936e827350cca76f22651812" alt=""
[/ol]
python的话,直接使用第三方的 xxhash库,seed 则是固定的 41405,两者的结果对比:
data:image/s3,"s3://crabby-images/68b74/68b7488beec85d59a8d4a00a69e4bc0d766351b8" alt=""
这里涉及到 bytes 和 list 的相互转换,直接使用对应的内置函数就行
xxh64_hexdigest 只能处理字节
第二个函数
第一个函数处理就到此结束,主要是为了得到 a 和 c 两个参数,下面进入第二个函数(需要经过三次 step in & out):
data:image/s3,"s3://crabby-images/8ac64/8ac649d94ecb0d1d366b3168377fd561ee044a60" alt=""
这里注意到 r = Pt.crypto.decrypt(t[n], n), t[n] 对应上一步的a,n则对应c,所以我们需要进入 decrypt内部看看做了什么
data:image/s3,"s3://crabby-images/1995c/1995c8ce491e94675229b804310e52be19630bc9" alt=""
这里有几处很明显的特征,如果熟悉rc4算法的朋友,应该能很快地认出来,下面是rc4的wiki
data:image/s3,"s3://crabby-images/e2d86/e2d86ae7bf772881b1b8dfb1a8b98dda2c246ad3" alt=""
当然,如果认不出是rc4也没关系,就几十行代码,完全可以照着写实现整个过程,就是重复造轮子比较花时间
我们直接使用 Crypto 库 ARC4 模块
def crypto_rc4(text: bytes, sec_key: str):
cipher = ARC4.new(sec_key.encode())
cipher_text = cipher.encrypt(text)
return cipher_text
拿一小段字节,分别进行加密测试,对比结果,成功复现原功能:
data:image/s3,"s3://crabby-images/d6a0d/d6a0d708248c31fdbb83300856791339b26dfa3d" alt=""
第三个函数
第二步一样,3次 step into & out 后,我们进入第三个函数内部,可以看到参数t就是经过rc4加密后的数组
data:image/s3,"s3://crabby-images/f91f2/f91f28c556d0353689d30faa9a07fa0a7ebe2cd5" alt=""
再次进入函数内部
data:image/s3,"s3://crabby-images/5f390/5f3902d0f6e3853ac55e0052551aec0bf732bd14" alt=""
进入最后的 r函数内部
data:image/s3,"s3://crabby-images/428db/428db15fdfc0f4b197fd40d727e63fd17ee495ea" alt=""
这里我们无法确定用的是哪种解析,直接拿出全部的关键词去google一下吧,出现最多的关键词是 bplist,看一下它的实现过程,是不是和豆瓣的很相似?
data:image/s3,"s3://crabby-images/2dcec/2dcecdeaf95208022ef5889576e4309c10f94032" alt=""
bplist的全称是 Binary Property List,plist 属性列表是一种ios系统中用来存储少量数据的文件格式,可以和 json、xml、binary等格式互相转换,这里有介绍
最终将 binary数组 转成 json数据
data:image/s3,"s3://crabby-images/b317f/b317f2c3efd9c1e88cff2b6d368f126a471a183c" alt=""
python的内置标准库已经有plistlib专门来处理plist文件,直接使用 loads 方法来加载 binary 就行
import plistlib
import struct
'''
需要引入 struct 模块,不然会报 undefined error
'''
pb_results = plistlib.loads(rc4_bytes, fmt=plistlib.FMT_BINARY)
最终的解析结果是一个数组:
data:image/s3,"s3://crabby-images/d8b56/d8b5668f36a9610ebdd4d8935c97dc924b20dc5a" alt=""
代码整理
import requests
import base64
import re
import xxhash
import plistlib
import struct
from pprint import pprint
from Crypto.Cipher import ARC4
from math import floor
from plistlib import FMT_BINARY, _BinaryPlistParser, _undefined
def crypto_rc4(raw_data: bytes, sec_key: str):
cipher = ARC4.new(sec_key.encode())
rc4_bytes = cipher.encrypt(raw_data)
return rc4_bytes
def judge_title(a):
if "onclick" not in a and a != "search_subject" and a != "" and "doubanio" not in a:
return True
return False
def main():
url = f"https://search.douban.com/book/subject_search?search_text=虫师&cat=1001"
res = requests.get(url)
data = re.search(r'window.__DATA__ = "(.+?)"', res.text, flags=re.DOTALL).group(1)
i = 16
a = base64.b64decode(data)
s = floor((len(a) - 2 * i) / 3)
u = a[s : s + i]
raw_bytes = a[0:s] + a[s + i :]
sec_key = xxhash.xxh64_hexdigest(u, 41405)
# print(sec_key)
# print(raw_text)
rc4_bytes = crypto_rc4(raw_bytes, sec_key)
# print(rc4_bytes)
pb_results = plistlib.loads(rc4_bytes, fmt=FMT_BINARY)
print("最终结果为:")
pprint(pb_results)
results = list(
filter(
lambda d: isinstance(d, dict)
and len(d["k"]) > 10
and len(d.keys()) == 2,
pb_results,
)
)
for d in results:
for a in d["k"]:
if bool(a) and isinstance(a, int) or isinstance(a, str):
a = str(a)
if "img" in a:
print(f"封面:{a}")
elif "book.douban.com" in a:
print(f"豆瓣链接:{a}")
elif a.isdigit():
print(f"豆瓣id:{a}")
elif " / " in a:
print(f"出版信息:{a}")
elif judge_title(a):
print(f"书名:{a}")
print("cxs".center(50, "-"))
if __name__ == "__main__":
main()
运行结果如下,我做了一下筛选和格式化输出
data:image/s3,"s3://crabby-images/053b8/053b8060b833f4282754c8b813731b710948f9f7" alt=""
最后,其实m端的豆瓣接口没有加密,可以直接用 xpath提取数据,不用去逆向这么麻烦 藍藍藍