早晨看到 Gemma2 的跑分就觉得不对,里面 llama3 那个 666 的 mmlu 太标志性了,抽空把这两个都跑了一遍 GSM-8K 谷歌这宣传资料很明显是用自家微调过的模型打 llama3 的基础模型,脸都不要了 全部 bench 都是原汁原味的 pytorch 运行, gemma2 发了个 f32 的 base 我还用 f32 跑的,慢的想死 https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf 有人跟我说谷歌在 report 里面有说是不是预训练模型成绩,我有点困了没找到,请诸君看一下吧
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf 有人跟我说谷歌在 report 里面有说是不是预训练模型成绩,我有点困了没找到,请诸君看一下吧