deepseek 的源代码开源在哪里啊？

查看 976|回复 53

SGL 2025-1-30 10:16:22

这就说明搞算法的和搞开发的”隔行如隔山“了。

LnTrx 2025-1-30 10:17:10

可以参考一下其他组织的复现尝试 https://github.com/huggingface/open-r1

chesha1 2025-1-30 10:17:43

@dajj #10 大模型的训练代码是非常工程的，可能都还包含了一些公司内部基建的代码，这些是肯定不会开源的，训练一次要几千张卡，开源又怎么样，难不成还真能跑起来不成
不过一般 LLM 开源，会同步放出模型结构、怎么推理、怎么微调的代码，如果非要较真这个，deepseek r1 确实少做了一点，不过目前开源的部分已经很够用了

zeni123 2025-1-30 10:18:14

@dajj openAI 也叫 open 你告诉我 openAI open 在哪里

ShadowPower 2025-1-30 10:19:08

训练代码其实都不会开源，很多公司“开源”出来的和他们实际使用的代码并不同。
因为训练一个超大模型要考虑的事情非常多，例如服务器硬件故障之后要怎么处理。有些代码会涉及到公司的云设施核心代码，如果完整开源出来，你甚至可以用来搭建一个阿里云、腾讯云……

Yuanlaoer 2025-1-30 10:19:40

确实不太理解这种开“源”
楼上列举的各种，那个算源么？你们自己去看看开源软件中的源是什么意思啊。
如果展示其中的一部分代码就算是开源了，那我给你放个 https 的链接，算开源网页吗？
楼上举 OpenAI 的例子更滑稽，啥时候人家自己说过自己是开源的啊？

keakon 2025-1-30 10:20:25

@dajj @Yuanlaoer 程序开源和模型开源本来就是不同的领域，为啥要一样？
这个概念也不是国内发明的，OpenAI 的 GPT-3 之前的版本也是开源的，但只开放了权重。
Meta 的 LLaMA 系列也是开源模型，同样不提供训练数据，但它进一步在论文中公开了一些训练细节，因此不妨碍它成为国内套壳模型的鼻祖。
而 DeepSeek 在论文中公开的细节比 LLaMA 的论文更多，且不少是前人未走过的捷径，这足以让业界震撼了。

superalsrk 2025-1-30 10:21:22

deepseek 这次是开源的权重，以及那个五十多页的技术报告，实际上搞算法的有大量的代码是 dirty work ，就是各种数据处理技巧，因为这次的技术报告非常详细，短短几天已经有好几家复现成功 R1 了，比如 huggingface 的官方复刻版本。https://huggingface.co/open-r1

kenvix 2025-1-30 10:21:59

推理代码和权重开源了，推理代码直接合并到了 VLLM 主线，权重在 HF

kenvix 2025-1-30 10:22:34

另外具体的模型细节通过论文形式提供

deepseek 的源代码开源在哪里啊？

浏览过的版块

热门主题

4414经常打开这样，不知道你们那边有没有

悄悄看到韭菜正在萌芽了。是不是又可以收割

慈云的上海云没有了？

loc现在一天的帖子数这么少了吗？

搜狐号应该是不做了

唐音全球接入服务

发现有些人开源的格局很低，有嘲讽英语的，

留守老人看电视方案求解！

自制航拍无人机的可行性

苹果换机传数据不支持雷电接口吗？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

deepseek 的源代码开源在哪里啊？

浏览过的版块

热门主题

4414经常打开这样，不知道你们那边有没有

悄悄看到韭菜正在萌芽了。是不是又可以收割

慈云的上海云没有了？

loc现在一天的帖子数这么少了吗？

搜狐号应该是不做了

唐音全球接入服务

发现有些人开源的格局很低，有嘲讽英语的，

留守老人看电视方案求解！

自制航拍无人机的可行性

苹果换机传数据不支持雷电接口吗？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告