把 5.5 和 5.4 的 xhigh 做糖果测试对比, 5.5 完败

查看 18|回复 1
作者:hanbaoji   
做糖果測試,5.5 对比 5.4 完败,感觉是不是有必要切回 5.4 继续用了。。。。
❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5
Graded 5/5  correct=4  accuracy=80.0%
❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5
Graded 5/5  correct=1  accuracy=20.0%

对比, 测试, 模型

testsb   
有另一个类似问题,有网友说 5.5 `测试显示绝大多数时候 high 的智商都比 xhigh 高` 😂
https:///t/1224353?p=1#reply20
您需要登录后才可以回帖 登录 | 立即注册

返回顶部