我的 GPT 5.5 怎么和你们的不一样?

查看 81|回复 7
作者:w568w   
最近经常看到有帖子回复说「 GPT 5.5 比 Claude Opus 强得多」「 GPT 5.5 更全能」(例如 t/1217986 )。
但就我最近几周的使用体验,我感觉 GPT 5.5 相当不如人意啊。具体来说:
[ol]

  • 口癖和英文直译腔特别严重。虽然说比之前的 GPT 5.2~5.4 好一些,但也真的只是好一些,还是特别喜欢说「稳」「接」「拆」「跑」「闭环」「收敛」「它更像是……」「不是……而是……」「你说的完全正确」「先说结论」「列出“子弹”」「修改更“硬”」「要不要我……」「我立马开始……」。我尝试写了个 Skill 来试图修复它的回复风格,但也没有太大收益;

  • 结构化表达能力不行。例如同样是对于一个代码仓库,询问一个需要深入代码研究的问题,Opus 4.8 能够简洁地以一两句话回复 Yes or No ,但 GPT 5.5 就要生成几千 tokens 的、包含四五点小标题的冗长回答,引用一大坨代码,而且每个分点的内容之间相互重叠,读起来全是噪音,心智负担特别高,而且相比于 Opus 的答案,也没有获得什么额外的有效信息量。搞得我现在都不敢问 GPT 5.5 问题了,读得头疼。

  • 擅自动手,干一大堆根本没有要求的任务。这个我原以为只有 Gemini 之类的模型会犯,但最近 GPT 5.5 也开始频繁出现了:让他看个 review ,讨论一下如何解决,它直接自作主张一口气「阅读了 review 、研究了代码、选择了自己喜欢的解决方案、编写了 AI review 回复」。要不是我及时掐断,它都要调用 GitHub cli ,以我的身份去回复别人了;
    还有一次,要求它「阅读一个 bug 描述、定位代码问题」,结果它非要和我讨论「这个 bug 报告的英文措辞不对,应该如何改善」,就很……

  • 代码风格很差。这个我不知道怎么描述,但是同样让 GPT 和 Opus 去写一个一两千行左右的复杂代码任务,GPT 给我写的代码修修补补之后,最终总是包含几十个零碎函数、一大堆无用的小作文注释、不对称的代码结构(例如有两个 Config 概念,GPT 非要写出一个 struct、一个 class)。这些也都算好的了,毕竟「又不是不能用」,关键是它写着写着会把自己也给绕进去,淹没在自己写的屎山注释和混乱结构里,最后失能得连自己写的细节都忘记了,debug 都做不好了;
    [/ol]
    而 Opus 不仅写出来的代码更有「人味」、符合我的预期,甚至有能力修复重构 GPT 写出的屎山,延长 GPT 的工作周期。有一次:GPT 5.5 挣扎两个小时,然后告诉我做不好的任务,Opus 花 15 分钟定位、直接几行代码解决了。
    总之,我目前的体感能力大概是:
    Opus 4.8 ≈ Opus 4.6 >> Opus 4.7 > GPT 5.5 ≈ MiMo 2.5 Pro >> GPT 5.2~5.4 >> Gemini 3.1 Pro
    我的配置:OpenCode + ChatGPT Pro 官方订阅(无中转站),GPT 5.5 xhigh
    如果各位有舒适的使用体验,也欢迎分享点 Harness 方面的干货,我是真没辙了。昨晚项目被 GPT 5.5 乱改一通,气得血压都高了

    结构, 自动, 代码

  • 409164   
    4.8max 秒杀 5.5xhigh
    Ericcccccccc   
    用的是 codex 吗
    w568w
    OP
      
    @Ericcccccccc 主帖有写,是 OpenCode 。我不太方便把我的 Claude 订阅接入到 Codex ,所以两边都「客场作战」,用一模一样的 OpenCode 配置,来公平比较了。
    Ericcccccccc   
    @w568w 这就不清楚了。codex 是很强的,我的体感是只要讲清楚代码都是一遍过的。(我没用过 cc
    lujiaosama   
    @w568w OpenCode 的锅可不小。同样接入 DeepSeek ,用 Claude CLI 和 OpenCode 的表现截然不同。
    Perry   
    其实很看你的 Verification loop 如何
    xuhuanzy   
    你是我第一个看到 opus 改 gpt 的屎山的, 正常来说只有 gpt 给 opus 擦屁股的份
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部