GPT-5.5 真能让人用得舒心吗？怎么在我这跟弱智一样 ...

作者：w568w 发布时间：2026-6-15 16:21:51

纯吐槽贴。太长不看：听不懂人话。
本贴接续 https://www./t/1218023 ，因为上个帖子里有人说「不用 Codex ，模型性能当然差！你的抱怨都是无效的」，所以我最近换用了 Codex ，继续吐槽几个例子。
以下例子均使用：官网 GPT Pro 账号（让美国朋友帮忙注册的）+ 最新版 Codex + 开 xhigh （有思考过程）。已用几个账号质量检测站检测过「是否是满血模型」，均为 100% 通过。
[ol]

要求它「合并代码，先运行编译测试再 commit 」。我刚说完这句，还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查，转头直接 commit 了。指令遵循能力令人汗颜。

要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令，硬是用 Write 工具，花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是，我的 token 是大风刮来的吗？

要求它「复现并研究一个用户 bug 报告」，报告大意是「启动应用时会正确跟随系统的颜色主题；但启动之后再改系统主题，必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例，跑完发现「启动时确实能读取主题」，就告诉我无法复现、然后放弃了。说人话就是，报告明明说「 A 场景正常、B 场景有 Bug 」，它却只测了 A 场景，发现正常（这不废话吗），就认定报告无效…… 这是智力正常的 LLM 能干出来的事？

这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决，它直接自作主张，一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断，它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次，要求它「读一份 bug 描述、定位代码问题」，结果它非要跟我讨论「这个 bug 报告的英文措辞不准，该怎么改」，就很……无语。

在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听，非要用 pip 、用系统 python 、用 conda 。再三要求改正，它输出道歉，却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说，它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事，这个例子明明是它分内的事，它却什么都不问、不说、不做了。
[/ol]
心累啊。
至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」，就这第一个例子，完全干净的上下文都能给我执行一半、丢一半，再多的 Prompt 感觉也没法补救这种例子了。

指令, 逻辑, 缺陷

相关帖子

jinsongzhaocn 2026-6-15 16:22:37

你理解错了，必须要加 skills 。

jinsongzhaocn 2026-6-15 16:23:08

Anthropic 内部披露，没有 Skills ，Claude 在内部评测里的准确率不超过 21%；加上 Skills 之后，稳定冲到 95%以上，部分领域接近 99%。而且 95%的 Skills 还需要一直升级，否则甚至会掉到 65%。就凭这些信息，你还懒得折腾 skill ？

Haku 2026-6-15 16:23:51

用一下国产的，你就会发现确实很聪明

w568w

OP

2026-6-15 16:24:44

@jinsongzhaocn 唉唉。我当然用了 Skills 啊，我说「不用提这些」的意思，不是「我一个都没试过，我猜肯定不好用」，而是我全都试了一遍，情况没有改善……

w568w

OP

2026-6-15 16:25:15

@jinsongzhaocn 你真的认真读帖子了吗？就这第一个例子，你告诉我什么样的 skill 才能让它知道「当用户要求你做 A 、B 、C 的时候，你应该做 ABC ，而不是只做 C 」？

canyue7897 2026-6-15 16:26:01

op 是直接用追求目标模式还是开的 plan 模式？如果直接追求目标，可能会出现这种情况，遇到过跳过指令的情况，不过也没那么夸张。但是开了计划，按道理来说，不应该。

jinsongzhaocn 2026-6-15 16:26:55

试试主动唤醒 skill ，先规划后执行呢？比如：
/superpowers:brainstorming
或者 mattpocock-skills 的 /diagnose ， /tdd

walkon 2026-6-15 16:27:50

AGENTS.md 用起来，Plan 用起来。

w568w

OP

2026-6-15 16:28:33

@Haku 是的，我现在发现 GLM5.2 和 MiMo 2.5 Pro 都比 GPT-5.5 好用，至少
(1) 能听明白我想做什么；
(2) 自己不明白的东西，知道要先问我；
(3) 没有要求它做的，绝对不做；
(4) 有基本的逻辑思维。
GPT-5.5 感觉有时候真的是小脑发育不完全了，逻辑关系都能弄错（测试 A 场景正常，认定 B 场景没事）

GPT-5.5 真能让人用得舒心吗？怎么在我这跟弱智一样

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

GPT-5.5 真能让人用得舒心吗？怎么在我这跟弱智一样

相关帖子

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告