关于爬虫的风险,请大家给我点意见

查看 75|回复 10
作者:pol   
事情是这样的 公司想推销自己的产品,但这些东西基本上都需要投标才行
那么我们一个小公司,是不知道有那些老板需要采购,那么就想到去 xx 投标招标网,这种数据聚合平台(平台提供了付费 api ,老板感觉贵)找客户
由于他们手动一个个复制粘贴慢,就想让我们这里的 java 开发写爬虫来拿数据(电话,名字,地址)
上面是故事背景
我想的是,这种公司性质的爬虫,算不算商用,会不会有法律风险。
其他公司的爬虫工程师是怎么操作的,他们不会有风险吗,或者是有没有什么规避的方法
如果不开发爬虫,使用 rpa 那种自动化工具来爬数据,会不会有风险呢。(用 rpa 的话,风险是公司还是开发者还是 rpa 工具)
yzding   
被发现了就违法, 没被发现就不违法. 是你公司的,你还是别趟了
datehoer   
1. 被发现了就要进去,电话姓名算敏感数据了。gov 别碰,伸手必被抓。
2. 看公司性质,有些公司没事,但大多数没资质的都会完蛋,一告一个准。基本上就是挂代理。
3. 看来你不理解爬虫啊,使用别人的工具不也是爬取数据么。风险主要是个人其实,反正被抓的程序员基本上都要判几缓几。
luzihang   
看影响。是否影响 C 端的日常生活,是否对 B 端造成大量经济损失或者不正常竞争。
luzihang   
RPA 是封装给市场的概念。本质还是那些技术。
pol
OP
  
@datehoer 资质这个东西具体指的是什么,我不太了解,确实我也认为我们要的数据是敏感数据不太好。
我给公司写爬虫,被发现了,是开发者背锅吗?
pol
OP
  
@luzihang #4 公司是想为了减少人力一行行看数据,肯定不会疯狂,不会导致对方服务不可用
spacebound   
@pol #6 还是 1 楼那句话,被发现了就违法,没被发现就不违法,其他的自己衡量吧
Sayuri   
尽量使用非国内服务商提供的境外 IP 来进行操作。
Sayuri   
如果再避免风险,则尽量控制一下请求的频率,不要让对方网站收到大量请求而崩溃。
可以用 puppeteer-extra 。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部