只能说 DeepSeek V4 Pro 继续努力吧，天气卡片效果一般 ...

OP

2026-4-24 12:23:38

大部分人不要以自己手头工作的体感，来判断当今几大主流 LLM 的能力。
大部分人的工作难度就是高考数学水平，你非要让陶哲轩、丘成桐、陈省身、张益唐来个大比赛，
结果分数分别是 98 、99 、97 、98 ，然后你作为高中生，还要对着卷子上的标点符号和字体强行评价一番，
完全是自取其辱。
对于绝大多数没那么抽象、逻辑没那么复杂、数理没那么相关的工作，比如调用个工具，糊个前端后端，写个 C++这些没那么复杂的任务，
最新版本的 GPT 、claude sonnet 、gemini 、kimi 、glm 、qwen 、deepseek 之间，已经没有可观测的差距了。
你所有感知到的差距，就像高考难度的题目陶哲轩 98 分和丘成桐 99 分之间的差距一样，你几乎完全 100%就是主观地在鸡蛋里挑骨头了。
就像很多人不信任何 benchmark ，20 多个 benchmark 总共几十万个 test case 看都不看，
只要一出个新模型，就自己指挥 LLM 当场写个贪吃蛇，拿七八个贪吃蛇截图，开始点评“这个贪吃蛇太绿了”、“那个贪吃蛇动画不好”，一顿侉评，
完全就是火车硬卧车厢高声点评伊朗最新局势的水准。

dingawm

OP

2026-4-24 12:24:28

@afkool #8 没明白你这句话的意思。。是哪个和哪个大差不差？

dingawm

OP

2026-4-24 12:25:00

@HeyWeGo #6 那还是 DeepSeek V3.2 吧，那个确实不能有太高期待

MuyuQ 2026-4-24 12:25:39

@hhh12 #10 尊重你的观点

只能说 DeepSeek V4 Pro 继续努力吧，天气卡片效果一般

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则