Deepseek 的存在,GLM5.1 的结构和 DeepSeek 几乎一样,只是在预训练和后训练上投入多点就可以获得不差的效果。架构带来的优势现在被拉平的不少,meta 的时代开源还没摸索出一个优秀的结构呢
除了有 deepseek 的因素以外,meta 在 llama3 到 4 期间,ai 实验室经过了很多人事变动和办公室 drama 。 多关注一下湾区的科技公司,你会发现科技圈的 drama 比洼地娱乐猪圈的 drama 有趣太多了😁