Claude4.5,GPT5.2,Gemini3 pro 感官对比

查看 116|回复 13
作者:YanSeven   
最近在摸鱼总结一些八股性的东西,我会根据同一个问题和主题,同时在 Web 网页上问这三个牛马:
claude4.5 免费版
gemini3 pro 是 ai studio 的免费版
gpt5.2 是开通的 plus 会员的 thinking
对比下来,感官上,gpt5.2 生成的文档,在文章结构和逻辑条理上会更加丰富一点。
所以,仅就八股类的知识来说:
我个感官上的排序就是:gpt5.2 >= gemini3 pro >= claude4.5
仅作一点个人的小分享。

Gemini3, pro

GlobalNPC   
拿收费版去对比免费版吗?是不是有点不合理啊
YanSeven
OP
  
@GlobalNPC 是有点,但是我理解,收不收费应该是影响能不能用某个模型型号(或者限额)
对于同一个模型型号,应该不会有能力上的差异吧,譬如 claude4.5 ,付费版和免费版在能力上会有差异吗
13240284671   
写代码来说:
claude4.5 > gemini3 pro > gpt5.2
huage   
我觉得一个很重要的点,就是绝大部分人都不会使用 AI ,正确来说就是不会提问,包括我自己。
重点来了:那么谁能够引导用户提供高质量的提问,那么谁就更能够为用户提供高质量的回答。
目前观察 ChatGPT 正在往这方面改进,引导用户如何提问以获得更接近需求的提问。
lanceran   
@YanSeven 会有影响,我开 Claude 付费就比 GPT 免费好用很多
w568w   
我最近使用 AI 最多的场景是做调研,例如:技术选型、框架推荐、报错的解决方案搜索等等。
用的都是各自最好的模型( Claude 4.5 Opus 、Gemini 3 Pro 等等)。使用下来:Claude Research >>>> Grok DeepSearch > ChatGPT 深度研究 > Perplexity AI > Gemini DeepResearch >>>>> 国内一众 AI (如 Kimi 、豆包等的联网模式或 Agent 模式)
点评:
- Claude 的 Agent 系统实在太强了,很多调研我自己人工做,都没有它总结得全面
- Grok 算是做得比较早的,但 Grok 4 不思进取,被 Claude 后来居上了。目前的质量只能说远远被 Claude 甩在身后
- Gemini 模型本身强,但 Agent 系统做得一坨屎。DeepResearch 不如改名叫 LongReport ,任何一个简单的问题都要生成大段信息熵极低的调查报告,充满各种无用的套话、官话、废话,研究的意义和背景写得比研究结论还长,调查的覆盖面也很狭窄,稍微困难一点的问题几乎碰不到正确答案的边缘。像是公务员用来糊弄不懂技术的领导的
- 国内的模型能力可能很强,但受限于合规性,只能调用国产搜索引擎,再加上信息孤岛化,Garbage in, garbage out ,搜索功能全是垃圾。别说是不常见的问题了,即使常见的问题 90% 也都是幻觉般的胡言乱语,可信度不超过 10%
BernieDu   
我自己写代码用下来 gemini3 pro(antigravity) > clude4.5 opus(cc) > 5.1-codex-max >= gemini3 pro(cli) > gpt5.2
其中 gemini3 pro(antigravity) 和 clude4.5 opus(cc) 小上下文的修改质量差不多,超大上下文和大的修改量 gemini3 pro 表现更好,gpt 感觉工程能力不如这两家,一般就是改个方法找个错误会用
BernieDu   
Claude 打错了。。
bytenoob   
个人体感 不考虑价格
gpt-5.2-xhigh > claude opus 4.5
但是 gpt 非常慢
您需要登录后才可以回帖 登录 | 立即注册

返回顶部