爬 gov cn 网站上的公开数据然后交给大模型向量化处理,是否有风险

查看 93|回复 6
作者:jerrry   
个人感觉有两个风险
  • 第一个是爬虫 gov cn 网站本身就有风险
  • 第二个是爬到的数据交给大模型处理会有数据泄漏的风险(虽然都是公开的数据),特别是如果使用的是境外的大模型接口

    所以有点犹豫。如果只是参与这个项目的其他部分,不涉及爬虫这块,是否有风险呢?
  • povsister   
    你这个想法很刑,还主动传出境外,那还能更刑
    wbrobot   
    直接说结果:无期
    ospider   
    刑与不刑,即和法律没有关系,也和爬虫没有关系。人在境内,最安全的就是搞国外的数据;想搞国内的数据,最安全的方法就是肉身润。
    理论上来说,公开的数据当然随便爬了,但是至于实际执行,懂的都懂吧。就技术角度而言,你用国外的服务器爬,其实也很难追溯,但是技术总是有漏洞,代码总是有 bug 的,也说不准。
    实际情况来说,如果是你自己爬了少量数据用,放心搞就好了,没人 care 。真正会被盯上,一定是经济或者政治上产生了一定的影响,比如承德的程序员。
    1145148964   
    其实很多网站在境外打不开的。或者网速奇慢无比。墙是双向的。
    yyzh   
    深圳的话这里有不用爬
    https://opendata.sz.gov.cn/
    另外爬虫是犯法的
    wonderfulcxm   
    不被发现就没有问题
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部