教你以「上下文信息密度」为第一性原理构建最强通用 Agent

查看 527|回复 60
h4nru1
OP
  
@MuyuQ skill 和 memory 的冲突是索引( memory 中对该 skill 的记忆)冲突吗?这个只能在框架上做同步,就是 skill 有了更新之后,memory 也要对应更新。假如把 skill 当作原子,那么 workflow 会是 skill 的组合(虽然很多 skill 也是 workflow 的形式存在),那我想这时候对 skill 的改造就需要依据你的 workflow ?最起码要保证在 workflow 中的接口对齐?
MuyuQ   
我最近在项目中使用 mastra ,我觉的和 mastra 比,ga 是个人玩具。
h4nru1
OP
  
@zhaohua 我去学习下
MuyuQ   
@h4nru1 不止是索引冲突。
是更大范围,更深层的冲突。
memory 可能是错的、过期的、过度泛化的。
skill 也可能只是某次局部成功经验。
workflow 是谁定义的,什么时候该稳定,什么时候该更新?
所以这不是 skill 和 memory 同步一下就能解决的问题。
真正难的是:skill 、memory 、workflow 都会变化,而且还会互相影响。
适用范围怎么定?过时怎么判断?权重怎么分配?冲突时谁正确?这些都不是靠模型临场判断能稳定解决的。
所以还是得靠人工判断,而不是自主迭代。
Agent 倒是可以定时做一次自检,把可能冲突的地方展示给用户,让用户判断。(但自检开销巨大)
我也就瞎想了一下。  吃饭去,吃饭去。
h4nru1
OP
  
@MuyuQ 定时自检肯定不够,最佳实践应该是实践的事后反思
h4nru1
OP
  
@h4nru1 反思的前提是他自己知道错了,而且知道错在哪儿。
很多任务并不是显式报错。可能在 Agent 看来没问题,反而会强化错误经验。
很多任务可能末端报错,实际错误点在中端,但 AI 只凭感觉修改了末端症状。(这个在 AI 编程中太常见了,agent 也难免)
没有可靠反馈和人工审查,反思很容易变成 agent 自我确认或者末端打补丁。
以目前大模型的能力,人工介入在所难免,人工智障 agent 需要人工导师时不时盯着。
CS200185   
@MuyuQ 现在可能最直接的方式就是 outcome based reward ,但是确实挺难的,有些审美类的,报告类的,真的很难评
h4nru1
OP
  
@hihanley 相亲那句是玩梗,你要是只看到那一句说明正文你没看懂。。
@Bad0Guy "脑子里装的就那点皮毛"——所以你看完了哪篇技术报告得出这个结论的?
Bad0Guy   
关于文中所述 “上下文越长表现越差” 中的第一点:Lost-in-the-middle ,我有一些疑问。
这个观点是 https://arxiv.org/pdf/2307.03172 这篇文章提出的。但它是 23 年 7 月成稿的,它做的实验还是 gpt-3.5 那一代的模型。那么这个 “缺陷” 是否有被持续的证实呢。即具体到目前而言,GPT5.5 和 Qwen3.5-27B 这些目前最强的闭源大参数量模型和开源小参数量模型,是否仍然存在 Lost-in-the-middle 的问题。
如果有,能否展示一下相关的论文和实验。如果没有,那么这个 “第一重陷阱” 是否站不住脚呢。
希望 OP 抽空解惑
HTravel   
@CS200185 好问题,认真回答一下:
1. Lost-in-the-middle 在新模型上确实有缓解。Anthropic 和 OpenAI 都在训练阶段加了位置均匀采样,GPT-4 turbo 之后的模型在 NIAH (Needle-in-a-Haystack) 测试上基本能做到全位置召回。
2. 但"缓解"不等于"消除"。NIAH 是单针检索任务,实际 agent 场景是多步推理+多信息融合。2024 年 RULER benchmark (arxiv 2404.06654) 测了多针检索和逻辑链任务,即使 GPT-4o 在 128k 时性能也有明显下降。
3. 更关键的是,即使模型"能找到"信息,长上下文带来的注意力稀释仍然影响推理质量。这不是 lost-in-the-middle 一个现象能概括的,而是 attention 机制的固有特性——O(n²) 的 softmax 分布在 n 很大时必然更平坦。
所以帖子里的表述可以更精确:不是"找不到"而是"推理质量随上下文长度单调递减"。GA 的分层记忆本质上是在做信息压缩,让模型在有限注意力预算内拿到最相关的上下文。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部