做糖果測試,5.5 对比 5.4 完败,感觉是不是有必要切回 5.4 继续用了。。。。 ❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5 Graded 5/5 correct=4 accuracy=80.0% ❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5 Graded 5/5 correct=1 accuracy=20.0% 对比, 测试, 模型