只能说 DeepSeek V4 Pro 继续努力吧,天气卡片效果一般

查看 102|回复 13
dingawm
OP
  
大部分人不要以自己手头工作的体感,来判断当今几大主流 LLM 的能力。
大部分人的工作难度就是高考数学水平,你非要让陶哲轩、丘成桐、陈省身、张益唐来个大比赛,
结果分数分别是 98 、99 、97 、98 ,然后你作为高中生,还要对着卷子上的标点符号和字体强行评价一番,
完全是自取其辱。
对于绝大多数没那么抽象、逻辑没那么复杂、数理没那么相关的工作,比如调用个工具,糊个前端后端,写个 C++这些没那么复杂的任务,
最新版本的 GPT 、claude sonnet 、gemini 、kimi 、glm 、qwen 、deepseek 之间,已经没有可观测的差距了。
你所有感知到的差距,就像高考难度的题目陶哲轩 98 分和丘成桐 99 分之间的差距一样,你几乎完全 100%就是主观地在鸡蛋里挑骨头了。
就像很多人不信任何 benchmark ,20 多个 benchmark 总共几十万个 test case 看都不看,
只要一出个新模型,就自己指挥 LLM 当场写个贪吃蛇,拿七八个贪吃蛇截图,开始点评“这个贪吃蛇太绿了”、“那个贪吃蛇动画不好”,一顿侉评,
完全就是火车硬卧车厢高声点评伊朗最新局势的水准。
dingawm
OP
  
@afkool #8 没明白你这句话的意思。。是哪个和哪个大差不差?
dingawm
OP
  
@HeyWeGo #6 那还是 DeepSeek V3.2 吧,那个确实不能有太高期待
MuyuQ   
@hhh12 #10 尊重你的观点
您需要登录后才可以回帖 登录 | 立即注册

返回顶部