上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。 今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。 可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。 https://imgur.com/a/u7Np8Wk Claude, 推理, 准确率