我询问了下 Claude ,回答是两个方面的因素。首先是 transformer 本身并不完美,上下文越长它的注意力就越涣散,最后会对重要的内容视而不见;其次是训练过程本身就鼓励大模型作出一副埋头苦干停不下来的样子,这使得大模型像极了在老板面前极力展现自驱力的员工,有时候甚至给我一种“它是不是也背了房贷要还”的感觉。
根据上面的了解,我觉得如果注意力机制不改进,那么将来很长一段时间可能都只能依赖 agent 工具的 harness 技巧来维持会话了。这些技巧我个人总结主要是三方面:
第一是控制思维链,例如 karpathy 指南,第二是控制记忆,例如及时清理读过不需要了的文件内容,第三是控制输出,例如要求输出文言文。最近发布的一些大模型都强调自己如何能胜任长时间任务,但我个人觉得,能不能运行长任务,agent 工具比大模型本身更重要。

