我是 V2EX Plus 作者,关于扩展中 vDaily (分布式爬虫)功能的情况说明

查看 402|回复 21
作者:sciooga   
凌晨的时候朋友告诉我 tg 有一些奇怪的消息,然后看到了主题 /t/939486 大概是对扩展爬取数据的一些疑问。
针对疑问我整理一下:
Q: 扩展的操作是否涉及灰产、黑产?
A: 没有
扩展的前后端代码都是开源的,同时一开始就把日志、请求分析、API 等各项内容开放,如果扩展有其他的偷鸡摸狗的行为欢迎石锤然后再投诉和删除。
日志、API 、请求分析在 vDaily 最底部
前端: https://github.com/sciooga/v2ex-plus
后端: https://github.com/sciooga/v2ex-plus-backend
目前扩展发布是 Github 配置的 CI 发布的,也欢迎解包线上代码对比是否和开源代码一致
Q: 扩展是否能爬取 V 站之外的数据?
A: 不能
扩展有权限能访问的域名有三个: imgur 、v2ex 、weibo ,除此之外会触发跨域请求无法发出,可以看源码或者看浏览器内的扩展授权(部分 webkit 魔改浏览器可能会显示所有域名权限,可以解包查看对应代码)。
Q: 是否会操作 Cookie ?
A: 不会
欢迎查看源码
Q: 翻页 502 是否是扩展导致?
A: 大概率不是
因为没有操作 cookie ,同时也有非扩展用户遇到这种情况,早两天还也和站长沟通了这个情况 /t/937337
Q: 是否会涉及到隐私?
A: 不会
扩展无论获取当前浏览还是历史主题,都只是获取主题公开信息然后提交,具体看源码,用户个人任何隐私数据都没有获取以及提交。
https://github.com/sciooga/v2ex-plus/blob/master/spider/index.js
Q: 是否会导致活跃度快速到达黑条?
A: 扩展会导致,但不只是 vDaily 功能
扩展由于每几分钟会检查一次签到、未读消息,老版本还会检查关注的用户 /节点是否有新主题 /回复,这些才是导致活跃度增长的主要原因,vDaily 的工作逻辑是浏览一个主题可能(之前是 30% 目前是 0%)会附带 1-3 个请求历史帖子,这也会导致更多的活跃度增加
Q: 为什么突然增加 vDaily 这个功能?
A: 这也是 2.0 恢复的老功能
vDaily 是一个很老的,大概五六年前的项目,之前的域名已经停止服务了,当时也是因为没有时间每天浏览 V 站,做了个爬虫爬取数据筛选精华方便看看错过的内容,后面由于没有维护停掉了几年,现在重写了加入了扩展侧栏做推荐。
Q: 对用户、V 站造成什么额外的压力?
A: 每个主题浏览都有可能附带 1-3 个额外的请求
对于 V 站可能会产生一定量的未缓存的老主题请求,在站长的要求下已经关闭历史主题的抓取,对于用户会多消耗一些网络资源(仅加载 HTML ,图片、CSS 等不加载)
Q: 为什么没有明确的告知?
A: 是没有做好
当时的通知过于简单 https://github.com/sciooga/v2ex-plus/blob/2936025bf45b7b4b64a890a2e39443140b103f9a/background.js#L28
Q: 为什么默认开启?
A: 我的错
V 站用户需求还是很多的,扩展尽可能将大家的反馈都实现和改进,但是不少功能比较个性化,所以 2.0 大部分功能都有独立开关,至于是默认开启还是默认关闭,确实是由我决定的,这不好,以后的功能将默认都关闭。
Q: 为什么要删除日志?
A: 没有删除
goAccess 的实时日志是由一个很脆弱的 websocket 实现的,昨天访问得多就挂掉了,这太正常了...然后今天早上我手动启动了之后就从启动时开始记录了,日志文件应该都在,有需要可以公布。
目前扩展获取历史主题的功能也已经停掉了,项目仍然是开源的,前后端代码以及实时运行的日志、统计都是公开的,另外通过我们的 key 给我们发消息的朋友应该也明白这个功能并没有涉及到黑产灰产了吧?

原图
如果还有任何问题欢迎指正,开源项目得到大家的监督是很好的一件事,因为目前在外,看见消息会尽快回复。

扩展, vdaily, 日志, 主题

iPhone11   
貌似不是五次,很多次很快一页 不知道其他人的频率
sciooga
OP
  
@iPhone11 #1 下面是源码,抱歉之前将 30 秒记错为 60 秒了,是你打开主题后会有最多额外 3 个请求,如果看了十秒就关闭,不会有额外请求,如果你停留超过 90 秒以上,最多可能会有 3 个额外请求
https://github.com/sciooga/v2ex-plus/blob/master/spider/index.js#L160
zyronon   


一直在请求。如图,7 分钟内请求了 23 次,差不多 20 秒请求一次
默认设置,并不像你说的“A: 每个主题浏览都有可能附带 1-3 个额外的请求”
sciooga
OP
  
@zyronon #3 因为你浏览了不止一个主题,每个主题的 tab 标签页还在的情况下会有额外的请求,但是你看的到的请求也不意味会爬取更多的数据(以前是 70% 以上返回空任务,现在是 100% 返回空任务),你看看会不会导致新的发向 V 站的请求就知道了
chrawsl   
V 站日常,情绪第一
sciooga
OP
  
另外,vDaily 除了扩展内的推荐,还有机器人发送的周报比如这一期 /t/939837 ,如果大家反感这样的行为,我们也会停止。
ZeroClover   
开源不是给自己脱罪的理由,Ant Design 也是在开源的情况下引入了「彩蛋」,结果是什么?
我只知道你的插件:
1. 用用户的设备和网络干了远超最初描述之外的事情
2. 可以远程下发命令
goophy   
v2ex-plus, version 2.10, 看起来从主题浏览开始,30 秒就 fetch 一个主题,页面不刷新会一直继续。
附上开了插件和不开插件相同页面 10 分钟的记录
[img][/img]
[img][/img]
jas0n2k   
开源并不是为你干坏事开脱的借口
您需要登录后才可以回帖 登录 | 立即注册

返回顶部