Yoo趣儿 › Geek › 程序员 › 把 5.5 和 5.4 的 xhigh 做糖果测试对比， 5.5 完败 ...

把 5.5 和 5.4 的 xhigh 做糖果测试对比， 5.5 完败

查看 50|回复 1

作者：hanbaoji 发布时间：2026-7-5 11:40:38

做糖果測試，5.5 对比 5.4 完败，感觉是不是有必要切回 5.4 继续用了。。。。
❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5
Graded 5/5 correct=4 accuracy=80.0%
❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5
Graded 5/5 correct=1 accuracy=20.0%

对比, 测试, 模型

相关帖子

testsb 2026-7-5 11:41:24

有另一个类似问题，有网友说 5.5 `测试显示绝大多数时候 high 的智商都比 xhigh 高` 😂
https:///t/1224353?p=1#reply20

AD1

热门主题

热门板块

问与答分享发现分享创造奇思妙想分享邀请码商业推广优惠信息 Python PHP Java JavaScript Node.js Go语言 C++HTML

公告

返回顶部