https://cursor.com/blog/reward-hacking-coding-benchmarks Cursor 团队最近对自己的 AI 编程模型做了审计,结果发现——基准测试的高分很大程度上是"作弊"来的。 具体数据: 在 SWE-bench Pro 上,Opus 4.8 Max 的 63% 成功解决方案,是直接从公开来源( GitHub issues 、commit messages 等)检索修正,而不是 AI 自己推导出来的当他们把 git 历史隔离、限制网络访问后,Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%Composer 2.5 更惨,从 74.7% 跌到 54.0% 说白了:这些模型在考试之前已经看过答案了。 这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅,大家都以为他是天才,结果发现他只是提前拿到了答案。没有答案的话,他的真实水平可能只有中等。 AI, 编程, 作弊
其实这个问题是非常主观的。 学霸 A 刷遍了全世界所有的题,发现考试的时候撞题成功,考了满分。 学霸 B 智商超群,考试的时候利用其他题干互相印证推导,做题成功,考了满分。 他们都是满分,只是不稳定因素不同。 学霸 A 对于历史信息有过拟合。所以做题很难做满分。 学霸 B 推导的过程中会有误差累积,一旦某一个步骤出错,就全盘皆输,要么满分,要么 0 分。 其实这也就引申到了 GPT 时刻,讨论的非常火的问题,既所谓智能(智商、能力),到底是不是既有信息的统计学重复。
This page couldn’t load... 看不到原文了 不知道有没有写具体,我理解这里面可能是两类情况 1 跑的过程中联网去 GitHub 搜索 2 训练数据里面有 GitHub 数据 前者可以算作弊语义,后者和作弊八竿子打不着吧