震惊！知名 AI 大公司竟做出这种事……

查看 108|回复 6

作者：boboliu 发布时间：2024-6-30 06:00:15

早晨看到 Gemma2 的跑分就觉得不对，里面 llama3 那个 666 的 mmlu 太标志性了，抽空把这两个都跑了一遍 GSM-8K
谷歌这宣传资料很明显是用自家微调过的模型打 llama3 的基础模型，脸都不要了
全部 bench 都是原汁原味的 pytorch 运行，
gemma2 发了个 f32 的 base 我还用 f32 跑的，慢的想死

https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
有人跟我说谷歌在 report 里面有说是不是预训练模型成绩，我有点困了没找到，请诸君看一下吧

luckykong 2024-6-30 06:01:00

https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
有人跟我说谷歌在 report 里面有说是不是预训练模型成绩，我有点困了没找到，请诸君看一下吧

hantianyang 2024-6-30 06:01:58

厉害，这事做的，都不知道该如何评价了

Donaldo 2024-6-30 06:02:55

kaichen 2024-6-30 06:03:35

大厂嘛，不稀奇。。

boboliu

2024-6-30 06:04:25

他这里有 5-shot 的标注耶，应该是没公开 prompt 的情况吧

luckykong 2024-6-30 06:05:02

@kaichen 没有，5shot maj@1 本来就是 gsm-8k 常规的评估方法，即使受随机 icl 样本的影响，分数影响也不应该这么大

震惊！知名 AI 大公司竟做出这种事……

浏览过的版块

热门主题

个人博客，月入2000+

例行提醒：北京地区惠民保开卖了，能买尽买

code review 把国外的同事气到吐血

日经吐槽：现在的 Java 语言真的有点令人恶

我愿称之为 iOS 26.1 史诗级更新

想听听各位 iOS 和 Android 互转成功或失败

近期百度又在搞什么呀？关键词全部没有了

百度压根没说收录规则，都是你们猜测！

跪求一个中国移动家庭宽带用着稳定的科学那

话说买 macbook air 现在买较好，还是等明

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

震惊！知名 AI 大公司竟做出这种事……

浏览过的版块

热门主题

个人博客，月入2000+

例行提醒：北京地区惠民保开卖了，能买尽买

code review 把国外的同事气到吐血

日经吐槽：现在的 Java 语言真的有点令人恶

我愿称之为 iOS 26.1 史诗级更新

想听听各位 iOS 和 Android 互转成功或失败

近期百度又在搞 什么呀？关键词全部没有了

百度压根没说收录规则，都是你们猜测！

跪求一个中国移动家庭宽带用着稳定的科学那

话说买 macbook air 现在买较好，还是等明

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

近期百度又在搞什么呀？关键词全部没有了

在 Yoo趣儿投放广告