看了下 GenericAgent ,本质还是 computer use 那套,操控浏览器去点点点。 我自己试下来这条路走不通。拿 X 举例,用浏览器操控搜个推文,截屏+识别+点击+等渲染,一趟下来十几秒、几千 token 。我直接写了个 skill 调 X 的 GraphQL API ,200ms 回来结构化 JSON ,token 消耗大概是前者的 1/10 。 浏览器适合一次性的事情,高频操作还是得走 API 。代价就是每个平台要写一遍脚本,但写完就是纯收益。
@h4nru1 理论上都可以 API 画,MS Teams 本质上和微信一样,也可以全部 API 自动化 https://github.com/sigcli/sigcli/tree/main/skills/msteams 我认为未来浏览器不在被需要,AI Agent 就是用户流量入口,所有系统都必须支持 AI Agent 友好的接口