@dajj #10 大模型的训练代码是非常工程的,可能都还包含了一些公司内部基建的代码,这些是肯定不会开源的,训练一次要几千张卡,开源又怎么样,难不成还真能跑起来不成 不过一般 LLM 开源,会同步放出模型结构、怎么推理、怎么微调的代码,如果非要较真这个,deepseek r1 确实少做了一点,不过目前开源的部分已经很够用了
训练代码其实都不会开源,很多公司“开源”出来的和他们实际使用的代码并不同。 因为训练一个超大模型要考虑的事情非常多,例如服务器硬件故障之后要怎么处理。有些代码会涉及到公司的云设施核心代码,如果完整开源出来,你甚至可以用来搭建一个阿里云、腾讯云……
确实不太理解这种开“源” 楼上列举的各种,那个算源么?你们自己去看看开源软件中的源是什么意思啊。 如果展示其中的一部分代码就算是开源了,那我给你放个 https 的链接,算开源网页吗? 楼上举 OpenAI 的例子更滑稽,啥时候人家自己说过自己是开源的啊?
@dajj @Yuanlaoer 程序开源和模型开源本来就是不同的领域,为啥要一样? 这个概念也不是国内发明的,OpenAI 的 GPT-3 之前的版本也是开源的,但只开放了权重。 Meta 的 LLaMA 系列也是开源模型,同样不提供训练数据,但它进一步在论文中公开了一些训练细节,因此不妨碍它成为国内套壳模型的鼻祖。 而 DeepSeek 在论文中公开的细节比 LLaMA 的论文更多,且不少是前人未走过的捷径,这足以让业界震撼了。
deepseek 这次是开源的权重, 以及那个五十多页的技术报告, 实际上搞算法的有大量的代码是 dirty work , 就是各种数据处理技巧, 因为这次的技术报告非常详细,短短几天已经有好几家复现成功 R1 了, 比如 huggingface 的官方复刻版本。https://huggingface.co/open-r1