Google 推出 Web Environment Integrity 极大争议性,会否影响 web 爬虫?

查看 180|回复 12
作者:owen800q   
四名 Google 开发者——其中至少一人是隐私沙盒( Privacy Sandbox )团队成员——提出了一个新的 Web 标准 Web Environment Integrity API 。该 API 在功能上类似苹果的 App Attest 和 Android 的 Play Integrity API ,以 Play Integrity API 为例,如果它检测到 Android 设备获得了 root 访问权限,不管是用户做的还是恶意程序做的,那么特定应用程序如银行或钱包应用将会拒绝运行。换句话说,Google 想要在 Web 上创造某种 DRM 。这一提议引发了广泛争议。浏览器 Firefox 的开发商 Mozilla 已经表达了反对意见,
相关实现已 commit 到 chromium
https://github.com/chromium/chromium/commit/6f47a22906b2899412e79a2727355efa9cc8f5bd
对这个 API 设计不太了解,没理解错的话,只有通过运行环境验证,网话会下发一个 token ,后续所有访问,包括 API 请求要有这个 token ,才会允许返回数据. 业界应该不少数据采集项目,这对 web 爬虫界是噩梦吗
參考:
https://interpeer.io/blog/2023/07/google-vs-the-open-web/
https://news.ycombinator.com/item?id=36875226
https://news.ycombinator.com/item?id=36817305
https://news.ycombinator.com/item?id=36778999
https://news.ycombinator.com/item?id=36785516

API, integrity, Web, token

bertonzh   
看上去跟爬虫没有任何关系。一个网站能不能爬,取决于网站的服务端安全措施,而不是访问网站的客户端。
爬虫 -> 客户端
反爬虫 -> 服务端
这个 API 是客户端( Chrome )引入的,关反爬虫什么事呢?
bertonzh   
我刚才再看了下,是我理解错了,sorry
pocarisweat   
Mozilla 的反对声音从来都只能表个态,这么多次,Chromium 先斩后奏 Firefox 也只能跟了,反正也不会真有多少人迁移到 Firefox. Chrome 的用户粘性是比苹果高多了,认识的 iOS 开发几乎没有不骂苹果的,但前端开发真有不少人把谷歌当爹捏。
bertonzh   
尴尬了,v2ex 没办法删掉评论吗。。
owen800q
OP
  
@bertonzh 现实是一大堆外国网站没有反爬,不少项目的爬虫都是依赖用 headless chrome 直接解析 Html 拿到的数据,至少我司接近 9 成的项目都是这样,不可能花时间逆向 API, headless 肯定是没法拿到 token 的,这就相当于原来没有反爬措施的网站多了一层天然屏障, 生产环境在跑的服务都会挂掉
bertonzh   
我又思考了一下,这个措辞会对爬虫造成一定的影响,但是并不是噩梦。
简单说,Chrome 是开源的,爬虫方只要修改一下 Chrome ,把这个检测绕过(让服务端以为是安全环境)就行了,这个应该在很容易实现。
争议的点应该是针对用户隐私方面的(大多数用户也不会安装修改版 Chrome ,除非 Edge 等去掉这个东西),我觉得。
bertonzh   
总之,我在一楼的结论是没问题的,网站反爬是服务端的需求,只能服务端来做。客户端能做的比较有限,尤其是开源产品。
owen800q
OP
  
@bertonzh 我看了下草稿,token google 是建议由 CDN 方下发,类似 cloudflare, 通过环境验证后,CDN 下发 token, 同时在 CDN 会下发一个私钥后端,只有和后端的对得上,网站方才会返回数据, 就算自己编译 chrome, 去掉了环境检测,还是没办法绕过后端验证
wushenlun   
问题是这个 api 能不能被 hook ,如果能这么做除了干扰正常用户,几乎没有意义
您需要登录后才可以回帖 登录 | 立即注册

返回顶部