Cursor 审计发现: AI 编程基准测试成绩大部分是"作弊"来的, Opus 4.8 有 63% 的解法是抄的

查看 132|回复 12
作者:allman   
https://cursor.com/blog/reward-hacking-coding-benchmarks
Cursor 团队最近对自己的 AI 编程模型做了审计,结果发现——基准测试的高分很大程度上是"作弊"来的
具体数据:
  • 在 SWE-bench Pro 上,Opus 4.8 Max 的 63% 成功解决方案,是直接从公开来源( GitHub issues 、commit messages 等)检索修正,而不是 AI 自己推导出来的
  • 当他们把 git 历史隔离、限制网络访问后,Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%
  • Composer 2.5 更惨,从 74.7% 跌到 54.0%

    说白了:这些模型在考试之前已经看过答案了。
    这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅,大家都以为他是天才,结果发现他只是提前拿到了答案。没有答案的话,他的真实水平可能只有中等。

    AI, 编程, 作弊

  • YangQingLin   
    Cursor 审计结果说 Composer 2.5 作弊?这波是大义灭亲啊
    xiaomushen   
    不算作弊,刷题后去考试,算作弊么?
    javalaw2010   
    我记得这事之前就有个 bench 团队发现过修正了啊,现在搞 bench 的还会犯这种低级错误吗
    qingfeng9527   
    最近用 cursor coding 生成慢到令人发指,  有同感的吗,
    sentinelK   
    其实这个问题是非常主观的。
    学霸 A 刷遍了全世界所有的题,发现考试的时候撞题成功,考了满分。
    学霸 B 智商超群,考试的时候利用其他题干互相印证推导,做题成功,考了满分。
    他们都是满分,只是不稳定因素不同。
    学霸 A 对于历史信息有过拟合。所以做题很难做满分。
    学霸 B 推导的过程中会有误差累积,一旦某一个步骤出错,就全盘皆输,要么满分,要么 0 分。
    其实这也就引申到了 GPT 时刻,讨论的非常火的问题,既所谓智能(智商、能力),到底是不是既有信息的统计学重复。
    ludyleocn   
    万物皆可评测,没想到 llm 有一天也没法控制被别人的算法控制。
    最可笑的还是一些提示词也不会的人天天在那喊降智。
    xyyxlq   
    页面打不开,确定链接对么?
    aes114514gcm   
    就类似高考,刷题是有用的,应试技巧确实有利于提高成绩,你学不学?
    Visoar   
    This page couldn’t load... 看不到原文了
    不知道有没有写具体,我理解这里面可能是两类情况
    1 跑的过程中联网去 GitHub 搜索
    2 训练数据里面有 GitHub 数据
    前者可以算作弊语义,后者和作弊八竿子打不着吧
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部