教你以「上下文信息密度」为第一性原理构建最强通用 Agent

查看 640|回复 60

2026-5-9 16:27:43

@MuyuQ skill 和 memory 的冲突是索引（ memory 中对该 skill 的记忆）冲突吗？这个只能在框架上做同步，就是 skill 有了更新之后，memory 也要对应更新。假如把 skill 当作原子，那么 workflow 会是 skill 的组合（虽然很多 skill 也是 workflow 的形式存在），那我想这时候对 skill 的改造就需要依据你的 workflow ？最起码要保证在 workflow 中的接口对齐？

MuyuQ 2026-5-9 16:28:16

我最近在项目中使用 mastra ，我觉的和 mastra 比，ga 是个人玩具。

h4nru1

2026-5-9 16:29:08

@zhaohua 我去学习下

MuyuQ 2026-5-9 16:30:04

@h4nru1 不止是索引冲突。
是更大范围，更深层的冲突。
memory 可能是错的、过期的、过度泛化的。
skill 也可能只是某次局部成功经验。
workflow 是谁定义的，什么时候该稳定，什么时候该更新？
所以这不是 skill 和 memory 同步一下就能解决的问题。
真正难的是：skill 、memory 、workflow 都会变化，而且还会互相影响。
适用范围怎么定？过时怎么判断？权重怎么分配？冲突时谁正确？这些都不是靠模型临场判断能稳定解决的。
所以还是得靠人工判断，而不是自主迭代。
Agent 倒是可以定时做一次自检，把可能冲突的地方展示给用户，让用户判断。（但自检开销巨大）
我也就瞎想了一下。吃饭去，吃饭去。

h4nru1

2026-5-9 16:30:34

@MuyuQ 定时自检肯定不够，最佳实践应该是实践的事后反思

h4nru1

2026-5-9 16:31:23

@h4nru1 反思的前提是他自己知道错了，而且知道错在哪儿。
很多任务并不是显式报错。可能在 Agent 看来没问题，反而会强化错误经验。
很多任务可能末端报错，实际错误点在中端，但 AI 只凭感觉修改了末端症状。（这个在 AI 编程中太常见了，agent 也难免）
没有可靠反馈和人工审查，反思很容易变成 agent 自我确认或者末端打补丁。
以目前大模型的能力，人工介入在所难免，人工智障 agent 需要人工导师时不时盯着。

CS200185 2026-5-9 16:31:58

@MuyuQ 现在可能最直接的方式就是 outcome based reward ，但是确实挺难的，有些审美类的，报告类的，真的很难评

h4nru1

2026-5-9 16:32:45

@hihanley 相亲那句是玩梗，你要是只看到那一句说明正文你没看懂。。
@Bad0Guy "脑子里装的就那点皮毛"——所以你看完了哪篇技术报告得出这个结论的？

Bad0Guy 2026-5-9 16:33:45

关于文中所述 “上下文越长表现越差” 中的第一点：Lost-in-the-middle ，我有一些疑问。
这个观点是 https://arxiv.org/pdf/2307.03172 这篇文章提出的。但它是 23 年 7 月成稿的，它做的实验还是 gpt-3.5 那一代的模型。那么这个 “缺陷” 是否有被持续的证实呢。即具体到目前而言，GPT5.5 和 Qwen3.5-27B 这些目前最强的闭源大参数量模型和开源小参数量模型，是否仍然存在 Lost-in-the-middle 的问题。
如果有，能否展示一下相关的论文和实验。如果没有，那么这个 “第一重陷阱” 是否站不住脚呢。
希望 OP 抽空解惑

HTravel 2026-5-9 16:34:43

@CS200185 好问题，认真回答一下：
1. Lost-in-the-middle 在新模型上确实有缓解。Anthropic 和 OpenAI 都在训练阶段加了位置均匀采样，GPT-4 turbo 之后的模型在 NIAH (Needle-in-a-Haystack) 测试上基本能做到全位置召回。
2. 但"缓解"不等于"消除"。NIAH 是单针检索任务，实际 agent 场景是多步推理+多信息融合。2024 年 RULER benchmark (arxiv 2404.06654) 测了多针检索和逻辑链任务，即使 GPT-4o 在 128k 时性能也有明显下降。
3. 更关键的是，即使模型"能找到"信息，长上下文带来的注意力稀释仍然影响推理质量。这不是 lost-in-the-middle 一个现象能概括的，而是 attention 机制的固有特性——O(n²) 的 softmax 分布在 n 很大时必然更平坦。
所以帖子里的表述可以更精确：不是"找不到"而是"推理质量随上下文长度单调递减"。GA 的分层记忆本质上是在做信息压缩，让模型在有限注意力预算内拿到最相关的上下文。

教你以「上下文信息密度」为第一性原理构建最强通用 Agent

热门主题

难怪服务器小厂这么多利润原来这么高的难

天啊三数字域名都不续费了吗

打算用emlog搭个博客，测试速度怎么样这个

通过世纪杯你挣了多少钱

阿里云的域名怎么转到腾讯云

请分享几个绿色版杀毒软件可好？

macbookpro 买 M5MAX 128+2T 还是等 M6，我

MiMo Token Plan 老用户专属福利（订阅过期

有试过 minimax M3 的吗？说下感觉怎么样？

精装房交付的是博联智能，如何接入米家呢

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

教你以「上下文信息密度」为第一性原理构建最强通用 Agent

热门主题

难怪服务器小厂这么多 利润原来这么高的 难

天啊 三数字域名都不续费了吗

打算用emlog搭个博客，测试速度怎么样这个

通过世纪杯 你挣了多少钱

阿里云的域名怎么转到腾讯云

请分享几个绿色版杀毒软件可好？

macbookpro 买 M5MAX 128+2T 还是等 M6，我

MiMo Token Plan 老用户专属福利（订阅过期

有试过 minimax M3 的吗？说下感觉怎么样？

精装房交付的是博联智能，如何接入米家呢

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

难怪服务器小厂这么多利润原来这么高的难

天啊三数字域名都不续费了吗

通过世纪杯你挣了多少钱

在 Yoo趣儿投放广告