本地部署 DeepSeek-R1 671B 千亿大模型流程

作者：snowkylin 发布时间：2025-2-1 00:00:34

https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html
（以下介绍就是 DeepSeek R1 写的，我觉得还挺厉害的，我是写不出来……）
🚀 测试模型：
1.73-bit 量化版（ 158GB ，每秒 7-8 个词）
4-bit 量化版（ 404GB ，每秒 2-4 个词）
💻 硬件需求：
1.73-bit：内存+显存 ≥ 200GB
4-bit：内存+显存 ≥ 500GB
实测配置：4 块 RTX4090 显卡（ 96G 显存） + 384G DDR5 内存
⚡ 性能对比：
短文本生成：1.73-bit 速度碾压，长文本会卡到 1-2 词/秒
瓶颈竟是 CPU 和内存，GPU 全程摸鱼（利用率 1-3% 😂）
🤖 模型性格差异：
1.73-bit：毒舌傲娇，敢怼 ChatGPT：
“哼！还在用老古董 ChatGPT ？(◔‸◔) 我的训练费可没烧穿钱包！”
4-bit：安全标兵，拒绝一切危险发言，全程官方脸 😇
🔧 部署步骤：
下载+合并 GGUF 文件
装 Ollama + 调参数（ GPU 分层加载）
跑模型，内存炸了？减层数！
可选：搭配 OpenWebUI 变身高配版 ChatGPT ！
✨ 总结：
1.73-bit 版性价比超高，适合短平快任务！长对话会变树懒…🦥
完整教程在博客，硬核玩家速来试试！👉

部署, 性能, 模型

相关帖子

fcten 2025-2-1 00:01:30

MoE 模型的主要瓶颈在于内存/显存带宽，对算力的要求比较小。你的这个配置的瓶颈全在内存带宽上，GPU 妥妥打酱油。
用 24 通道的双路服务器主板，纯 CPU 跑 Q8 量化的模型也能达到 6 ～ 8 token/s 的速度。可以参考： https://x.com/carrigmat/status/1884244369907278106

snowkylin

OP

2025-2-1 00:02:15

@fcten 是的，所以我在正文里写了，文中测试的这套配置对于跑大规模 LLM 推理并不是最有性价比的（我用这个只是因为我手上刚好有，主要是做训练用）。如果纯做 LLM 推理，目前最有性价比的新机方案我觉得可能是高配大内存的 Mac Studio 。
https://x.com/ggerganov/status/1884358147403571466

vpsvps 2025-2-1 00:03:08

请问 1.73-bit 量化版（ 158GB 大小的模型）
一个 4090 24G 加上 160G 内存
可以跑起来吗？
不是需要 7 块 4090 吗？

snowkylin

OP

2025-2-1 00:03:43

@vpsvps 可以，会比较慢（可能大约 2-3 token/s ，取决于内存带宽和 cpu 规模）

vpsvps 2025-2-1 00:04:29

@snowkylin #4 谢谢回复，用 ollama 就可以吧，显存用完就会调用内存，
比如我的服务器有 8 块 4090 ，内存 640G ，能跑得动 671b 404GB 这个，就是速度慢点是吧？

snowkylin

OP

2025-2-1 00:05:18

@vpsvps 是的可以
详细可以看正文
https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html

BanShe 2025-2-1 00:06:00

马克一下。我缺显卡😂

googlefans 2025-2-1 00:06:43

出个教程

vpsvps 2025-2-1 00:07:40

@snowkylin #6 👍，这种方式是不是不能直接使用 ollama run deepseek-r1:671b 从 ollama 上下载，404G 的，而需要在 huginnface 上下载？
Download the model files (.gguf) from HuggingFace (better with a downloader, I use XDM), then merge the seperated files into one

本地部署 DeepSeek-R1 671B 千亿大模型流程

相关帖子

热门主题

国产英伟达，摩尔把上市融资的75亿元拿去买

✅DMIT 三网 GIA CMIN2 MALIBU EB 维多利亚

有MJJ遇到过TG号全部设备都被登出了吗？

【快讯】HostHatch Seoul HH 新节点首尔

Hk-One-0.5G-52-LS 少量放貨速度

公司项目分享：硅谷人工智能公司 Nexa AI

拿到了 300 来部短剧的海外发行版权，下一

长话短说大家觉得花三十万结婚，存款花完

建议拉黑 IObit 旗下所有软件

重度苹果用户投华做了两面派

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

本地部署 DeepSeek-R1 671B 千亿大模型流程

相关帖子

热门主题

国产英伟达，摩尔把上市融资的75亿元拿去买

✅DMIT 三网 GIA CMIN2 MALIBU EB 维多利亚

有MJJ遇到过TG号全部设备都被登出了吗？

【快讯】HostHatch Seoul HH 新节点 首尔

Hk-One-0.5G-52-LS 少量放貨 速度

公司项目分享：硅谷人工智能公司 Nexa AI

拿到了 300 来部短剧的海外发行版权，下一

长话短说 大家觉得花三十万结婚，存款花完

建议拉黑 IObit 旗下所有软件

重度苹果用户投华做了两面派

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

【快讯】HostHatch Seoul HH 新节点首尔

Hk-One-0.5G-52-LS 少量放貨速度

长话短说大家觉得花三十万结婚，存款花完

在 Yoo趣儿投放广告