震惊!知名 AI 大公司竟做出这种事……

查看 50|回复 6
作者:boboliu   
早晨看到 Gemma2 的跑分就觉得不对,里面 llama3 那个 666 的 mmlu 太标志性了,抽空把这两个都跑了一遍 GSM-8K
谷歌这宣传资料很明显是用自家微调过的模型打 llama3 的基础模型,脸都不要了
全部 bench 都是原汁原味的 pytorch 运行,
gemma2 发了个 f32 的 base 我还用 f32 跑的,慢的想死

https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
有人跟我说谷歌在 report 里面有说是不是预训练模型成绩,我有点困了没找到,请诸君看一下吧
luckykong   
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
有人跟我说谷歌在 report 里面有说是不是预训练模型成绩,我有点困了没找到,请诸君看一下吧
hantianyang   
厉害,这事做的,都不知道该如何评价了
Donaldo   
nb
kaichen   
大厂嘛,不稀奇。。
boboliu
OP
  
他这里有 5-shot 的标注耶,应该是没公开 prompt 的情况吧
luckykong   
@kaichen 没有,5shot maj@1 本来就是 gsm-8k 常规的评估方法,即使受随机 icl 样本的影响,分数影响也不应该这么大
您需要登录后才可以回帖 登录 | 立即注册

返回顶部