第一层级. 模型训练的时候已经内置了相关的知识,比如 shell 、python 等 curl 、find 、vim 配置、tmux 配置等,通过简单的 tool prompt 即可达到很好的效果
第二层级. 间接通过 cli + skill 的形式,通过 shell 间接调用接口、修改数据
第三层级. 操作通用的基座能力,比如 computer use 通过系统的某种能力操作 gui 软件,通过 chrome 插件、agent browser 之类的可以指导 agent 操作所有的网站,以及豆包手机等
这三种层级每一层都比上一层的效果更差、更不稳定、消耗更多的 token ,但是通用性更强。
通用 agent 追求的是类似 javis 那种统一入口操作一切,但是现实层面有很多技术上、安全上、公司利益、agent 能力上的冲突。
有没有可能未来一段时间的趋势发生变化,开源模型的能力达到一定的高度,传统软件通过微调模型 + 专用 agent 聚焦于特定的问题会是主流趋势,小到 IDEA 内置 agent 更高效的理解和修改代码,大到操作系统、浏览器内置 agent 更高效的操作软件和网页,软件行业迎来第二春,而不是模型通吃一切

