我是 V2EX Plus 作者,关于扩展中 vDaily (分布式爬虫)功能的情况说明

查看 397|回复 21
goophy   
https://imgur.com/ygXpRlm.png
https://imgur.com/ygXpRlm.png
goophy   
我倒是一直用 v2ex-plus ,都挺好,除了最近看过的主题确实困扰了一下(很多都是我不关心也不会点开的),作者继续改进吧,我相信作者初衷倒也没啥坏心思。
kingfalse   
有权限能访问的域名有三个: imgur 、v2ex 、weibo ,
那不就是可以抓微博了,
sciooga
OP
  
@goophy #8 你好 pull_once 是 V 站自己的接口每隔一段时间访问一次,并不是扩展行为
sciooga
OP
  
@ZeroClover #7 针对你反馈的亮点,我解释一下
1. 远超最初描述之外的事情,这个我不清楚该这么定义,功能更新有通知(没告知默认开启是我们的问题),选项页有介绍以及单独的开关,后续的功能将默认关闭,按用户喜好开启。
2. 远程下发命令(或者说主题 id 更明确)仅限于获取某个 v 站的主题数据,并非“肉鸡”概念,也做不到除了获取一个主题数据之外的操作。
sciooga
OP
  
@kingfalse #12 你好,需要微博域名权限唯一做的是在 header 增加 referer ,因为微博已经开启了防盗链,只有加上 referer ,v 站内历史主题发布的微博图片才能正常显示。
https://github.com/sciooga/v2ex-plus/blob/master/manifest.json#L65
https://github.com/sciooga/v2ex-plus/blob/master/rules.json
扩展是否可以爬取微博?项目内没有对应的代码,爬取微博的难度也比较大,在我看来真要爬取换个途径可能更简单
ZeroClover   
@sciooga 既然你自己在主楼发了功能更新通知的代码,那我问问「增加 vDaily 推荐主题及评论,数据在不断完善,如需反馈欢迎 @sciooga 」这里面那个中文字可以解读出你加了个爬虫的意思?
肉鸡不肉鸡不是你觉得,爬虫可以托管在你自己的服务器上,你用用户的网络来爬无非就是为了绕过 V2EX 的 IP 限制,你猜猜没通知站方并且采用绕过站方安全功能的行为可不可以送你进去?
sciooga
OP
  
@ZeroClover #7
@jas0n2k #9
两位提到了开源是否让我脱“罪”的问题,也包括之前主题的 OP 也说到分布式爬虫存在的问题。
我认为最大的问题在于没有明确告知用户该功能的开启,这个功能是参考 京价保 https://github.com/sunoj/jjb 的历史价格实现的(无意引火),用户浏览商品时会提交当前商品的价格和优惠信息,V2EX Plus 扩展内参考实现了这个功能,同时为了补全历史数据增加了爬取历史数据的功能。
goophy   
@sciooga 是的,pull_once 是不开启插件的 V2EX 自己发起的 i.imgur.com/FRsJInk.png
第二个图是开启插件发起的 imgur.com/ygXpRlm.png
sciooga
OP
  
@ZeroClover #16 爬虫不在我服务器上,用用户网络是因为维护爬虫的登录态比较麻烦(数年前 1.0 就是这样实现的),并不是绕过 IP 限制,V 站每天更新的主题数量并不多。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部