deepseek 的源代码开源在哪里啊?

查看 341|回复 53
SGL   
这就说明搞算法的和搞开发的”隔行如隔山“了 。
LnTrx   
可以参考一下其他组织的复现尝试 https://github.com/huggingface/open-r1
chesha1   
@dajj #10 大模型的训练代码是非常工程的,可能都还包含了一些公司内部基建的代码,这些是肯定不会开源的,训练一次要几千张卡,开源又怎么样,难不成还真能跑起来不成
不过一般 LLM 开源,会同步放出模型结构、怎么推理、怎么微调的代码,如果非要较真这个,deepseek r1 确实少做了一点,不过目前开源的部分已经很够用了
zeni123   
@dajj openAI 也叫 open 你告诉我 openAI open 在哪里
ShadowPower   
训练代码其实都不会开源,很多公司“开源”出来的和他们实际使用的代码并不同。
因为训练一个超大模型要考虑的事情非常多,例如服务器硬件故障之后要怎么处理。有些代码会涉及到公司的云设施核心代码,如果完整开源出来,你甚至可以用来搭建一个阿里云、腾讯云……
Yuanlaoer   
确实不太理解这种开“源”
楼上列举的各种,那个算源么?你们自己去看看开源软件中的源是什么意思啊。
如果展示其中的一部分代码就算是开源了,那我给你放个 https 的链接,算开源网页吗?
楼上举 OpenAI 的例子更滑稽,啥时候人家自己说过自己是开源的啊?
keakon   
@dajj @Yuanlaoer 程序开源和模型开源本来就是不同的领域,为啥要一样?
这个概念也不是国内发明的,OpenAI 的 GPT-3 之前的版本也是开源的,但只开放了权重。
Meta 的 LLaMA 系列也是开源模型,同样不提供训练数据,但它进一步在论文中公开了一些训练细节,因此不妨碍它成为国内套壳模型的鼻祖。
而 DeepSeek 在论文中公开的细节比 LLaMA 的论文更多,且不少是前人未走过的捷径,这足以让业界震撼了。
superalsrk   
deepseek 这次是开源的权重, 以及那个五十多页的技术报告, 实际上搞算法的有大量的代码是 dirty work , 就是各种数据处理技巧, 因为这次的技术报告非常详细,短短几天已经有好几家复现成功 R1 了, 比如 huggingface 的官方复刻版本。https://huggingface.co/open-r1
kenvix   
推理代码和权重开源了,推理代码直接合并到了 VLLM 主线,权重在 HF
kenvix   
另外具体的模型细节通过论文形式提供
您需要登录后才可以回帖 登录 | 立即注册

返回顶部