大部分人不要以自己手头工作的体感,来判断当今几大主流 LLM 的能力。 大部分人的工作难度就是高考数学水平,你非要让陶哲轩、丘成桐、陈省身、张益唐来个大比赛, 结果分数分别是 98 、99 、97 、98 ,然后你作为高中生,还要对着卷子上的标点符号和字体强行评价一番, 完全是自取其辱。 对于绝大多数没那么抽象、逻辑没那么复杂、数理没那么相关的工作,比如调用个工具,糊个前端后端,写个 C++这些没那么复杂的任务, 最新版本的 GPT 、claude sonnet 、gemini 、kimi 、glm 、qwen 、deepseek 之间,已经没有可观测的差距了。 你所有感知到的差距,就像高考难度的题目陶哲轩 98 分和丘成桐 99 分之间的差距一样,你几乎完全 100%就是主观地在鸡蛋里挑骨头了。 就像很多人不信任何 benchmark ,20 多个 benchmark 总共几十万个 test case 看都不看, 只要一出个新模型,就自己指挥 LLM 当场写个贪吃蛇,拿七八个贪吃蛇截图,开始点评“这个贪吃蛇太绿了”、“那个贪吃蛇动画不好”,一顿侉评, 完全就是火车硬卧车厢高声点评伊朗最新局势的水准。