可能是最好的 Agent 连接浏览器的项目

查看 11|回复 0
作者:reliefe   
一言以蔽之,现在还没有能让 Agent 操作我的浏览器的方案
比如很多时候我想让 Agent 帮我看一个网页、点几个按钮、抓一下登录后的内容,结果就会遇到这些问题:
  • Playwright / Puppeteer 默认是一个全新的浏览器环境,没有我的登录态。
  • 云浏览器就不用说了,完全没用

    有些网站就是只有你本机 Chrome 里才是完整可用的:cookie 、localStorage 、扩展、登录态,全都在里面。之前尝试过几个项目:
  • openclaw-broswer-relay: 可以做到,但是只有 openclaw 能用
  • dotobot: 可以做到但是要连接别人服务器,而且只能读,不能操作浏览器
  • agent-reach: 专注于获取信息,而不是操作浏览器
  • opencli/opencli-rs: 把网站 cli 化,但很多时候我要的不是反复操作某个网页,就是要临时用各个网页

    所以我做了个小东西,叫 Browser Relay 。它的作用很简单:把你本机 Chrome 接给任意 AI Agent 。
    架构大概是这样:
    任意 AI Agent
        ↓ HTTP API / MCP
    本机 Relay Server
        ↓ WebSocket
    Chrome Extension
        ↓ CDP
    你的真实 Chrome 标签页
    它能做这些事:
  • 读取当前网页内容,输出成 Agent 友好的文本快照
  • 点击按钮、输入文字、提交表单
  • 滚动页面、截图
  • 执行 JS
  • 保留你的真实浏览器登录态、cookie 、localStorage 、扩展环境

    也就是说,Claude Code 、Cursor 、Codex 、Hermes ,或者你自己写的 Agent 。为此我还专门提供了 skills ,对 agent 非常友好。
    使用分三步,先安装:
    npm install -g @linsoai/browser-relay
    browser-relay status
    安装 Chrome 扩展:
    browser-relay path
    chrome://extensions
    打开开发者模式
    Load unpacked
    选择 browser-relay 的 extension 目录
    安装 skill ,根据提示执行 npx skills 命令安装到对应的 agent 里:
    browser-relay skill
    然后就可以愉快地让 agent 操作你自己的浏览器了
    最近这个项目为远程控制浏览器提供了一个全新的解决方案。
    远程控制不是只放开 0.0.0.0 再加上个鉴权,触达性仍然是个问题。在内网和公网都很难拿到一个稳定的 IP 。
    所以我选择了用中心服务 relay 的方式,浏览器插件和 cli 都连接到 relay ,relay 将双方进行转发。
    relay 服务部署在 cf 上,你也可以一键安装;
    浏览器插件端可以随时关闭远程连接功能或更换鉴权;
    cli 端支持对鉴权起别名,方便更大规模去管理浏览器。
    顺手这波还更新了其他东西:console/network 日志远程也能读了。options 页面视觉升级了下,命令也新增了一些,更开箱即用。
    欢迎来多玩玩点点 star
  • 您需要登录后才可以回帖 登录 | 立即注册

    返回顶部