传统:Human → GUI → Software
现在:Human → 自然语言 → AI Agent → CLI/API → Software
CLI 正是类 unix 系统早期的交互方式。GUI 不会消失,但角色变了——从「操作界面」变成「监控/审批界面」。AI 通过 CLI/API 干活,人通过 GUI 看结果和拍板。
比如:Claude Code — 不做 IDE ,直接在终端里写代码、改文件、跑命令
OpenClaw — 开源 AI Agent ,通过 CLI 操作各种工具链
一个软件或者应用,如果只有 GUI ,就很难被 agent 来操作。
浏览器是个拧巴的存在
很多软件都活在浏览器里( SaaS ),但浏览器偏偏是 AI 最难操作的东西:
AI 操作浏览器 = 截屏 → 视觉识别 → 模拟点击 → 等待渲染 → 再截屏确认结果
脆弱、缓慢、不确定性拉满。一个按钮改了位置,整个流程就崩了。
能看到两股力量在对抗:
一边是硬啃 GUI 的——browser-use 、Browserbase 、Playwright+AI 这类项目,本质上是教 AI 「像人一样点网页」。能用,但永远是 hack 。就像教一个机器人用筷子吃饭——能做到,但为什么不直接把食物送进嘴里?
另一边是绕过浏览器的——越来越多 SaaS 提供 API 和 MCP Server 。Notion 、Figma 都在开放接口和 MCP Server

