这道数学题选啥?AI跟人类吵起来了

查看 39|回复 2
作者:哔哩哔哩   
事情详述

AI还“看”不懂有图有表的向量题 第六题全军覆没

2025年高考刚结束,正当广大网友在给AI写的高考作文打分时,另一边,就全国一卷数学题第六题选A还是选C,吵起来了。



先来一起看看这个神秘的第六题真题是什么:



各社交平台讨论中的选项争议主要集中在A选项和C选项,双方各执一词,互不相让:

-绝对选A,向量相加,2倍根号2,约等于2.8,不接受反驳。

-一定是C啊,先把船速反个方向到航行速度,然后两个向量相加,得到4倍根号2。

在揭晓正确答案之前我们问了Gemini,它是这么说的:



遗憾的是,这道题Gemin其实答错了,正确答案是A!完整解答如图:



但当把正确答案告诉Gemini后,它开始倔起来了,坚持认为自己的答案C才是正确答案,并且指出“正确答案”的解析是混乱且有错误的,令人哭笑不得。



那么其他AI的表现如何?很遗憾,此次我们共测试了ChatGPT o3、Claude 3.7 Sonnet Thinking(Monica)、Gemini 2.5 Pro、元宝(hunyuan T1)、元宝(DS R1)、豆包(1.5-thinking-pro)、Qwen3-235B-A22,它们在这一题上全军覆没。

就AI的表现,我们邀请到高中数学名师李振涛来分享他的看法,他认为第六题AI全军覆没的主要原因可能是题目又有表又有图,题干文字描述的部分又比较长,这些干扰了AI的判断,导致多数计算结果为微风,少数是和风,而答案则是轻风,AI并没有完全理解这道题里的向量概念。

AI总得分远超预期,得益于今年考卷缺少高难度创新题

当然,7个大模型在第六题上全军覆没,也不代表AI在数学题上表现就差,实际上,在全国一卷整套数学真题的答题表现上,AI表现超出预期。

7个大模型的2025数学全国一卷全套试题答案(附在文末),李振涛老师以高考阅卷标准,绝对公平公正地进行了批阅,除了打分外,他也对AI的整体表现做了以下点评:

1.单选题前面5道,各家AI基本都可以很好地完成,对于考生来说,也都是相对容易的题目。

2.第8题,因为要选择的是“不可能的”,所以个别AI,直接试了几个数字,不合适的就直接出答案了,并没有考虑更多的可能性。

3.多选题选错了得零分,少选还是可以得一部分的分数的。对于人类考生来说,如果稍有拿不准的,宁肯少选也不能多选,这基本是一个公开的策略。但是部分AI的策略比较激进,有得零分的。

4.填空题第二个,答案应为±2,但是显然有一些AI没有考虑公比q可以为负,直接就扣掉了5分,比较遗憾。

5.大题这边,Google Gemini过程写得特别好,非常接近人类考生的过程。整体效果也是最好的。其次是ChatGPT o3,大题的得分率很高。个别模型只给了一句话思路,如果思路正确,笔者会酌情给一点分数,但是如果太离谱,或者是很空泛,笔者则直接不给分处理。

6.出乎笔者意料的,概率统计大题,所有的AI都很好地完成了,应该是与现实世界中,报表比较多,处理数据的方式,有的AI直接用了统计学上的一些方法。

7.数列大题,因为标准格式还有一些检验、验证等说明细节,部分AI这部分给的比较简略。求和的部分,Google Gemini模仿人算到半截算不下去了。也有的用的格式非常高级,不太符合高中生日常的书写;也有的草草给了个建议,并未给过程和结果。

8.立体几何第一问,各家都可以严格按照定理来推理,好评。但是第二问的证明,各家差距明显。不论是计算坐标法,还是几何方法,AI们各显神通。第三问其实回到电脑擅长的计算领域,如果没得分真的就是“活该”了。

9.椭圆题目,各家基本第一问都做的还不错,除了Claude,第二问如果是考生具备了AI给出的思路,应该可以在过程上拿一些分数,但是AI有部分没有给过程,比较遗憾。

10.导数大题创新程度很高,ChatGPT非常好的拿到了满分。但是多家AI没有很好的领悟本题需要用求导作为主要解题手段,完成度比较低。证明的部分Google Gemini给出了“反证法”,令笔者眼前一亮。

李振涛老师最后总结:

笔者深耕高中数学一线教学多年,对于AI能取得接近130分甚至更高的成绩还是很意外,因为毕竟常规高考数学的平均分应该在90分以下,即便是程度比较好的同学,数学高考成绩目标也就是120分左右。

这一方面得益于通用AI大模型的进步,另一方面也不排除今年的高考题目相对“简单”,笔者认为新高考在调整成19道题的卷面后,缺少高难度的创新题,数学、椭圆、导数,内部虽然有创新,但是考生如果平时接受比较良好的数学指导,可以通过过程拿到多半的分数,最终高考成绩也不会太低。正是这样一份相对答案比较套路的试卷,比较符合AI利用模型解题,从题库里面找类似的进行完善。没有很好的考查到AI面对创新题目,能否有效结合题目条件给出作答。

建议明年的考生,做好基础概念与定理的理解,多熟悉通用的方法,练好计算。即便没有那么多“灵光乍现”,高考也可以取得一个理想的分数。这完全符合新高考强调的数学核心素养。

李振涛丨毕业于北京大学,中科院硕士,高中数学名师,十年以上北京地区高考志愿辅导经验。

更多阅读:人类高考“封王”的大模型,离真正的“AI状元”还有多远?

附:七大模型答2025全国一卷数学题-答案部分

ChatGPT o3









Claude 3.7 Sonnet Thinking(Monica)









Gemini 2.5 Pro

















元宝(hunyuan T1)













元宝(DS R1)









豆包(1.5-thinking-pro)



























Qwen3-235B-A22B

























AI挑起人类, 人类和AI, AI和人类

QQ浏览器用户   

今年考多少分[/偷笑]

QQ浏览器用户   

视风风速=真风+船行风速=真风-船速。所以真风风速=视风风速+船速。视风向量为(-3,-1),船速为(1,3)。所以真风风速矢量为(-2,2)。所以,风速为2根号二

您需要登录后才可以回帖 登录 | 立即注册

返回顶部