claude code 降智被实锤了

查看 26|回复 3
作者:yarkyaonj   
上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。
今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。
可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。

https://imgur.com/a/u7Np8Wk

Claude, 推理, 准确率

gpt5   
我也很明显感受到了它现在经常颠三倒四
yougo   
https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅
hitrip   
不一定是永久降智,有时候是环境 bug 引起的
您需要登录后才可以回帖 登录 | 立即注册

返回顶部