最近在深度使用 Claude Code / Codex 做项目,发现一个趋势:大家讨论的重心从"用什么模型"转向了"怎么让 agent 稳定干活"。OpenAI 团队用这套方法写了 100 万行生产代码,零人工编写,他们管这叫 harness engineering 。Anthropic 的 Claude Code 团队从工具设计的角度得出了几乎一样的结论:harness 比 model 重要。
简单说,agent harness 就是包在 LLM agent 外面的那层基础设施——session 管理、上下文投喂、工具设计、架构约束、失败恢复、人类审批。模型本身不包含在内。
这个领域最近项目井喷,我花了不少时间整理成了一个 awesome list ,目前收录 50+ 个项目,分了这几类:
Full Lifecycle Platforms — 从需求到交付的全链路,比如 Chorus 、GitHub Agentic Workflows
Agent Orchestrators — 多 agent 并行执行,worktree 隔离,比如 Vibe Kanban 、Emdash 、Warp
Task Runners — issue tracker 到 coding agent 的桥梁,比如 OpenAI Symphony 、Axon
Agent Harness Frameworks — 造 harness 的框架,比如 Deep Agents 、Gambit
Agent Runtimes — agent 的持久运行时,比如 OpenClaw 、Zylos
Coding Agents — 底层 agent 本身,Claude Code 、Codex 、Gemini CLI 等
Requirements & Spec Tools — 需求/spec 工具,OpenSpec 、Spec Kit 等
几个有意思的观察:现在做 orchestrator 的项目最多,基本都在解决同一个问题:怎么让多个 agent 不互相踩。git worktree 隔离已经成了标配。task runner 这个品类是 OpenAI 的 Symphony 带起来的,思路很简洁:轮询 Linear issue ,spawn agent ,产出 PR 。full lifecycle 这层做的人最少,因为要同时解决需求管理、任务编排、人类审批,复杂度高一个量级。如果你也在用 AI agent 做开发,欢迎 star + PR 补充项目。

