我把 AI 用到了爬虫上,做了一款工具

查看 515|回复 98
作者:shouh   
一句话介绍
URL + 一句话,自动监控网页内容更新
猫头鹰 AI mtywatch.com
使用示例
  • 某事业单位的招聘公告页 URL + "有行政、文书类岗位的招聘公告,通知我"
  • 某热榜页 URL + "有突发的公共安全事件发生通知我,比如各种自然灾害、卫生食品安全事件"
  • 某地方政府部门公告页 URL + "有学校、医院相关的建设、改建类的项目公告,通知我"

    功能说明
  • 自动分析:AI 自动分析并监控页面,不需要写代码、不用配 RPA 脚本、不需要 RSS 支持
  • 自动修正:如果页面改版,AI 会自动进行修正适配
  • 多种通知:支持邮件、短信、飞书、钉钉、自定义 webhook 等通知方式

    操作步骤
    超简单,三步搞定
    [ol]

  • 输入要监控的 URL

  • 输入你想关心的数据说明

  • 点击自动分析,创建监控任务
    [/ol]
    价格
  • 免费用户可以监控 5 个网站
  • 注册赠送 100 积分,签到、分享都可以获得大量积分

    个人日常使用足够了
    以上是标准产品介绍,接下来聊聊我的想法。
    20 多年前,我刚刚成为程序员,对爬虫技术就很感兴趣,一直觉得爬虫是大有前途的方向。但是我感兴趣的不是大量抓取数据、不是毫秒响应抢茅台~ 而是很多做小生意的人、学生、创业者,他们需要关注一些网站:同行、供应商、政府部门、电商平台、学术论坛等等,我见过他们花几百几千找人写爬虫,用几天就不能用了;也见过他们花时间学爬虫工具,学了几天放弃了。
    要满足他们的需求不难,熟练的爬虫工程师可能只要花 1 个小时就能写好代码。难得是这些需求人群过于零散、网页类型千奇百怪。我尝试过很多方法,也尝试过做一个更友好的图形化爬虫配置工具。始终感觉是技术人员的自嗨行为,这样的工具,做的再友好,仍然不是普通人学的会的。
    23 年大模型刚出现的时候,重新唤起了我做这件事情的心思,但还是实验失败了; 24 年不死心又实验了一次,能力勉强能落地,但是 tokens 的成本不足以形成商业产品;直到今年,大模型在编程领域的神奇能力,解决我最后一块拼图。
    心心念了 20 年的产品,终于把她做出来了。
    以上是我的碎碎念,接下来我要寻求帮助了!
    我们略懂技术
    技术路线我们已经实验成功了,虽然产品刚上线,还需时间打磨,但我相信我们的技术团队能把她做好,也希望大家可以提出宝贵意见,耐心等待我们把她雕刻完美。
    我们不太懂市场
    我粗浅的理解为,原来饱受爬虫配置工具荼毒的人群,就是我们的客户;那些做小生意的人、学生、创业者,也是我们的客户;我只要把一句话监控网页这个核心能力做好了,应该有我们团队一口汤喝!
    如我所说,这很粗浅,我需要大家的看法,我们需要鼓励,更需要批评!!
    我们不太懂营销
    额,花钱打广告还是会的;嗯,也只会一半:花钱 -_-!
    我都不知道应该如何发问,遇到人只能说一句:我要怎么做?你可以从头开始教我的 -_-!
      

    1
                        
                        这个最大的风险是法律风险,一定要注意。
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         86
                        
                        adgfr32      21 天前 via Android
                        
                        如果能通过他访问被墙的网站,那你这相当于卖 vpn 了
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         87
                        
                        simo      20 天前
                        
                        

    https://github.com/BlueFisher/SHU-selfreport/issues/100
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         88
                        
                        Samwulol      20 天前 via Android   

    1
                        
                        如果目标网站需要登录,或者加了 cloudflare turnstile 的话,能支持爬吗?
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         89
                        
                        guomengtao      20 天前   

    1
                        
                        帮你做了一个宣传页,ai 做的简单页面,https://666.rinuo.com/mtywatch 希望更多人看到你网站
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         90
                        
                        xjiang1982154112   OPPRO   20 天前
                        
                        @Samwulol 需要登录的可以使用我们的浏览器插件进行本地监控(插件马上发布),验证码目前我们没有处理
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         91
                        
                        xjiang1982154112   OPPRO   20 天前
                        
                        太感谢了!
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         92
                        
                        xujiahai      19 天前   

    1
                        
                        

    不好意思,可以看到服务器 IP

                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         93
                        
                        xjiang1982154112   OPPRO   19 天前
                        
                        @xujiahai 图片看不见,什么意思?
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         94
                        
                        xjiang1982154112   OPPRO   19 天前
                        
                        @xujiahai 看到了,多谢反馈
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         95
                        
                        keller      5 天前   

    1
                        
                        大兄弟你这邮箱注册连验证码都收不到啊
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         96
                        
                        xjiang1982154112   OPPRO   5 天前
                        
                        @keller 您看看邮件是不是被拦截了,也反馈给技术团队了
                   
                
            
            
       
       
       
            
            
            
            
                
                   

                   
                         97
                        
                        aero99      6 分钟前
                        
                        有些网页要执行一下搜索查询,不是静态或动态刷新网页数据,不知能监控吗

    AI, 爬虫, 监控

  • doubleweiwei   
    听人劝吃饱饭 -_-
    已上线邮箱登录功能,欢迎大家体验;
    多谢大家提出的宝贵意见,我们会持续优化升级 /抱拳
    zhangk23   
    要手机注册..算了
    billccn   
    挺好,轻量化。不错的尝试。只是商业舆情现在要求越来越高,譬如全网数据的要求,这里面包括海量数据,而且是通过关键词(短尾词+Ai 联想词)来确定数据范围的。
    dearmymy   
    要手机注册的话有点太麻烦了
    Blanke   
    我之前副业尝试做过这个方向,最后觉得拿出来卖法律问题搞不定,就只有自己用了。
    其实主要问题是 AI 算力即使是自己搭建也非常的昂贵。如果要收用户钱那其实很难推广开,因为绝大多数的用户时间不值钱,真正愿意交钱的不少属于灰产,就带来了我说的法律问题。
    lambs13   
    兄弟这玩意是法律问题,现阶段对方用你程序干任何坏事,你必进去,得不偿失的。
    lswlray   
    n 年前就想做类似的东西了,xx 更新了通知我,当时想的是普通用户有上手门槛。现在 ai 出来后确实不需要手动写 xpath 或类似解析的代码了。但是几个问题,怎么处理反爬,国内大厂反爬很严重的,比如 贴吧 微博 淘宝 微信公众号等,还有怎么分钟没有网页的信息源,比如只有 app 没有网页的产品,逆向 api 吗,这种手动维护量很大。
    BingoW   
    以前有个扩展,监控网页变化的,只能监控某个关键词,不够智能,试试这个
    MEIerer   
    我还以为又有新人作品,仔细一看,还是昨天看过的。
    那我就从我自己的商业需求角度来说说吧:
    1 、合规:产品不能随意提供使用,必须要走商务合同形式,在合同中明确约定用途、以及由购买方承担法律责任。
    2 、产品建议:
    能够解决各种常见类型的登录验证码,能够支持一定程度的 IP 池,能够支持简单的脚本和变量,能够支持采集数据导出,能够支持 API 集成
    3 、推广:以企业应用为对象,向企业信息化系统商推销、成为合作伙伴、销售给他们的客户。
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部