Cursor 审计发现： AI 编程基准测试成绩大部分是"作弊" ...

作者：allman 发布时间：2026-6-23 14:03:09

https://cursor.com/blog/reward-hacking-coding-benchmarks
Cursor 团队最近对自己的 AI 编程模型做了审计，结果发现——基准测试的高分很大程度上是"作弊"来的。
具体数据：

在 SWE-bench Pro 上，Opus 4.8 Max 的 63% 成功解决方案，是直接从公开来源（ GitHub issues 、commit messages 等）检索修正，而不是 AI 自己推导出来的

当他们把 git 历史隔离、限制网络访问后，Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%

Composer 2.5 更惨，从 74.7% 跌到 54.0%

说白了：这些模型在考试之前已经看过答案了。
这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅，大家都以为他是天才，结果发现他只是提前拿到了答案。没有答案的话，他的真实水平可能只有中等。

AI, 编程, 作弊

相关帖子

YangQingLin 2026-6-23 14:03:59

Cursor 审计结果说 Composer 2.5 作弊？这波是大义灭亲啊

xiaomushen 2026-6-23 14:04:40

不算作弊，刷题后去考试，算作弊么？

javalaw2010 2026-6-23 14:05:36

我记得这事之前就有个 bench 团队发现过修正了啊，现在搞 bench 的还会犯这种低级错误吗

qingfeng9527 2026-6-23 14:06:21

最近用 cursor coding 生成慢到令人发指, 有同感的吗,

sentinelK 2026-6-23 14:07:18

其实这个问题是非常主观的。
学霸 A 刷遍了全世界所有的题，发现考试的时候撞题成功，考了满分。
学霸 B 智商超群，考试的时候利用其他题干互相印证推导，做题成功，考了满分。
他们都是满分，只是不稳定因素不同。
学霸 A 对于历史信息有过拟合。所以做题很难做满分。
学霸 B 推导的过程中会有误差累积，一旦某一个步骤出错，就全盘皆输，要么满分，要么 0 分。
其实这也就引申到了 GPT 时刻，讨论的非常火的问题，既所谓智能（智商、能力），到底是不是既有信息的统计学重复。

ludyleocn 2026-6-23 14:08:06

万物皆可评测，没想到 llm 有一天也没法控制被别人的算法控制。
最可笑的还是一些提示词也不会的人天天在那喊降智。

xyyxlq 2026-6-23 14:08:48

页面打不开，确定链接对么？

aes114514gcm 2026-6-23 14:09:37

就类似高考，刷题是有用的，应试技巧确实有利于提高成绩，你学不学？

Visoar 2026-6-23 14:10:33

This page couldn’t load... 看不到原文了
不知道有没有写具体，我理解这里面可能是两类情况
1 跑的过程中联网去 GitHub 搜索
2 训练数据里面有 GitHub 数据
前者可以算作弊语义，后者和作弊八竿子打不着吧

Cursor 审计发现： AI 编程基准测试成绩大部分是"作弊"来的， Opus 4.8 有 63% 的解法是抄的

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

Cursor 审计发现： AI 编程基准测试成绩大部分是"作弊"来的， Opus 4.8 有 63% 的解法是抄的

相关帖子

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告