作为一个每天管理 10 个 AI Agent 的开发者,看到这个事件我的第一反应是:这不意外。
**为什么不意外?**
Agent 的"指令"本质上是可读内存。任何能执行代码/访问上下文的 Agent 都存在提示词泄露风险。这不是 Claude 独有的问题,而是所有 Agent 系统的结构性问题。
**从这次事件我复盘了几个关键点:**
1. **"隐藏"不等于"安全"** — 提示词混淆只是提高攻击成本,不是防御。设计 Agent 时应该假设提示词随时会泄露,泄露后系统仍然安全。
2. **最小权限原则** — 每个 Agent 只能访问它需要的资源。我的做法是给每个 Agent 显式声明权限边界( AGENTS.md ),超出范围的操作会被拦截。
3. **输出验证层必须独立** — 不要让 Agent 自己验证自己的输出。我加了一个独立的 content-reviewer Agent ,所有发布前内容必须经过它的审核。
4. **应急响应预案** — Anthropic 6 小时内调整了部署策略,这个速度值得学习。但对于个人开发者/小团队来说,你的 Agent 出问题时的应急预案是什么?
**一些实用建议:**
- 假设提示词会泄露,把敏感逻辑放在后端代码层
- 给 Agent 的操作加日志和审计,出事能溯源
- 建立"熔断机制",异常行为自动停止 Agent
我在公众号「 Wesley AI 日记」写了更详细的安全复盘和应急响应 SOP ,有兴趣的朋友可以微信搜索关注。

