个人感觉有两个风险 第一个是爬虫 gov cn 网站本身就有风险第二个是爬到的数据交给大模型处理会有数据泄漏的风险(虽然都是公开的数据),特别是如果使用的是境外的大模型接口 所以有点犹豫。如果只是参与这个项目的其他部分,不涉及爬虫这块,是否有风险呢?
刑与不刑,即和法律没有关系,也和爬虫没有关系。人在境内,最安全的就是搞国外的数据;想搞国内的数据,最安全的方法就是肉身润。 理论上来说,公开的数据当然随便爬了,但是至于实际执行,懂的都懂吧。就技术角度而言,你用国外的服务器爬,其实也很难追溯,但是技术总是有漏洞,代码总是有 bug 的,也说不准。 实际情况来说,如果是你自己爬了少量数据用,放心搞就好了,没人 care 。真正会被盯上,一定是经济或者政治上产生了一定的影响,比如承德的程序员。