GPT-5.5 真能让人用得舒心吗?怎么在我这跟弱智一样

查看 244|回复 29
作者:w568w   
纯吐槽贴。太长不看:听不懂人话
本贴接续 https://www./t/1218023 ,因为上个帖子里有人说「不用 Codex ,模型性能当然差!你的抱怨都是无效的」,所以我最近换用了 Codex ,继续吐槽几个例子。
以下例子均使用:官网 GPT Pro 账号(让美国朋友帮忙注册的)+ 最新版 Codex + 开 xhigh (有思考过程) 。已用几个账号质量检测站检测过「是否是满血模型」,均为 100% 通过
[ol]

  • 要求它「合并代码,先运行编译测试再 commit 」。我刚说完这句,还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查,转头直接 commit 了。指令遵循能力令人汗颜。

  • 要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具,花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是,我的 token 是大风刮来的吗?

  • 要求它「复现并研究一个用户 bug 报告」,报告大意是「启动应用时会正确跟随系统的颜色主题;但启动之后再改系统主题,必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例,跑完发现「启动时确实能读取主题」,就告诉我无法复现、然后放弃了。说人话就是,报告明明说「 A 场景正常、B 场景有 Bug 」,它却只测了 A 场景,发现正常(这不废话吗),就认定报告无效…… 这是智力正常的 LLM 能干出来的事?

  • 这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决,它直接自作主张,一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断,它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次,要求它「读一份 bug 描述、定位代码问题」,结果它非要跟我讨论「这个 bug 报告的英文措辞不准,该怎么改」,就很……无语。

  • 在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听,非要用 pip 、用系统 python 、用 conda 。再三要求改正,它输出道歉,却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说,它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事,这个例子明明是它分内的事,它却什么都不问、不说、不做了
    [/ol]
    心累啊。
    至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」,就这第一个例子,完全干净的上下文都能给我执行一半、丢一半,再多的 Prompt 感觉也没法补救这种例子了。

    指令, 逻辑, 缺陷

  • jinsongzhaocn   
    你理解错了,必须要加 skills 。
    jinsongzhaocn   
    Anthropic 内部披露,没有 Skills ,Claude 在内部评测里的准确率不超过 21%;加上 Skills 之后,稳定冲到 95%以上,部分领域接近 99%。而且 95%的 Skills 还需要一直升级,否则甚至会掉到 65%。就凭这些信息,你还懒得折腾 skill ?
    Haku   
    用一下国产的,你就会发现确实很聪明
    w568w
    OP
      
    @jinsongzhaocn 唉唉。我当然用了 Skills 啊,我说「不用提这些」的意思,不是「我一个都没试过,我猜肯定不好用」,而是我全都试了一遍,情况没有改善……
    w568w
    OP
      
    @jinsongzhaocn 你真的认真读帖子了吗?就这第一个例子,你告诉我什么样的 skill 才能让它知道「当用户要求你做 A 、B 、C 的时候,你应该做 ABC ,而不是只做 C 」?
    canyue7897   
    op 是直接用追求目标模式还是开的 plan 模式?如果直接追求目标,可能会出现这种情况,遇到过跳过指令的情况,不过也没那么夸张。但是开了计划,按道理来说,不应该。
    jinsongzhaocn   
    试试主动唤醒 skill ,先规划后执行呢?比如:
    /superpowers:brainstorming
    或者 mattpocock-skills 的 /diagnose , /tdd
    walkon   
    AGENTS.md 用起来,Plan 用起来。
    w568w
    OP
      
    @Haku 是的,我现在发现 GLM5.2 和 MiMo 2.5 Pro 都比 GPT-5.5 好用,至少
    (1) 能听明白我想做什么;
    (2) 自己不明白的东西,知道要先问我;
    (3) 没有要求它做的,绝对不做;
    (4) 有基本的逻辑思维。
    GPT-5.5 感觉有时候真的是小脑发育不完全了,逻辑关系都能弄错(测试 A 场景正常,认定 B 场景没事)
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部