搞了一个比 agent browser 更省 token,不依赖 Node/Playwright 的 Agent 浏览器...

查看 20|回复 0
作者:libii   
地址
https://github.com/libi/ko-browser
原理
利用 chrome 浏览器的辅助模式在快照阶段使用 axtree 构建一个纯文本的节点树,每个元素有一个唯一 ID. Agent 操作都基于纯数字的 id(例如填写输入框 kbr fill 4 xxx),所以非常节省 Token.
节点数结构示例:
Page: "Google"
1: link "Gmail"
2: link "Images"
3: link "Maps"
4: textbox "Search" focused
5: button "Google Search"
6: list
  7: listitem
    8: link "About Google"
  9: listitem
    10: link "Advertising"
11: heading "Trending"
12: link "Breaking news: Major tech announcement"
13: img "Google Logo"
安装使用说明
欢迎大家试用哈, 使用 golang 的 chromedp 封装实现的.目前已经覆盖了 90%以上的常用指令.
本地有 go 环境的话 go install github.com/libi/ko-browser/cmd/[email protected]  就安装好了. 使用 kbr 指令即可.
没有 go 环境,就直接去 github 的 release 页面下载编译好的二进制包,全平台支持.
项目状态:
我目前尽可能完善了大部分的指令和参数的单元测试,跑了一些自己内部的 jenkins 界面操作都能跑通.更多更细致的场景还没有覆盖到,欢迎大家提交问题反馈哈.
您需要登录后才可以回帖 登录 | 立即注册

返回顶部