本地部署 DeepSeek-R1 671B 千亿大模型流程

查看 134|回复 18
snowkylin
OP
  
@vpsvps 我没试过直接用 ollama 下载,不太确定,以及这个是 unsloth ai 出的动态量化版本,目前我只看到 huggingface 上有
erek   
抱歉,一块 显卡都没有 T T
uncat   
> 我的服务器有 8 块 4090 ,内存 640G ,能跑得动 671b 404GB 这个吗?
可以跑得动,跟你类似的配置,8 * 4090 + 512G 内存。Ollama 671B Q4 ,回答问题,短的 10s ,长的 20 - 30s 的样子。体验较差。
实际显存+内存总共:180 - 200G 。
ollama 现在会因为显存分配策略问题导致无法启动,需要 dump 出 Modefile 后手动添加 parameter num_gpu 为显卡数量 * 2
uncat   
@vpsvps
vpsvps   
@uncat  谢谢回复,是直接 ollama run deepseek-r1:671b 这个就行吗?这个简单些。huginnface 上的版本还得合并,比较麻烦,您说的是指用 unsloth/DeepSeek-R1-GGUF 这个模型文件吗
uncat   
> 是直接 ollama run deepseek-r1:671b 这个就行吗?
先 ollama pull deepseek-r1:671b 拉下来后,保存 modefile 到本地,添加 num_gpu 参数后再重新导入即可。
参考这个: https://github.com/ollama/ollama/issues/6950#issuecomment-2373663650
@vpsvps
uncat   
1. ollama pull deepseek-r1:671b
2. ollama show --modelfile deepseek-r1:671b | sed -e 's/^FROM.*/FROM deepseek-r1:671b/' > Modelfile
3. echo "PARAMETER num_gpu 0" >> Modelfile
4. ollama create deepseek-r1:671b-custom
第 3 步,将 0 替换为 2 (假设你是 24G 显存的显卡,实际显存除以 9 取整数商)
uncat   
@vpsvps
vpsvps   
@uncat 谢谢 我试试
您需要登录后才可以回帖 登录 | 立即注册

返回顶部