@blakegger731 光高质量的训练用数据和训练费用(硬件/电费)就吓跑了一大帮人 更别说没经验的训练过程随时可能跑飞,大把的钞票直接打水漂 更可怕的是还要竞赛,比别人晚一点点,双盲性能差一点点,因为都要收费用户就跑到对面去了…… 要不是中国要备案只能用中国的 LLM 保活了那么几家做了起来全得被欧美日卷死…… 这个问题得等到显卡白菜价,或者可计算式内存(内存自带计算单元)开发成功,才有可能改观。 Groq 开发了个 SRAM 推理机,就是将来差不多可计算式内存的推理速度,但是 SRAM 太贵了良率太低,做不了大,只能跑不大的模型而且不能用来训练……但你可以提前体验下将来的可计算内存 LLM 推理什么速度
不如这么说,他们是因为站在技术的前沿才变得顶尖,而不是顶尖的人/实体站在技术的前沿。 数学和科学中的重要成果,经常被冠以 XX 人定理,YY 人定律,为什么不是 AA 州定理,或者 BB 国定律,或者 NM 年猜想呢?自然是因为能做出前无古人的重大发现,并且以合适的形式表述并公布的人一直都是极少数,但是你如果真的做出来了,你也能冠个名,你就变成“引领”的人了。 然后再去看这些 XX 和 YY ,你又会发现其中很多人一生中做出的真正重大的成果就这么一条,在这个成果发表之前可能是个 nobody ,在做出了之后想再其他的东西又不顺利。能连续做出重大贡献的,又是极少数中的少数。