想用手头的硬件最低成本尝试下本地 LLM 推理，请教一下 ...

作者：avalox 发布时间：2024-3-29 18:01:55

非 AI 专业，为了不掉队跑着玩的，所以目的是利用手头硬件最低成本折腾一下
手上有两台 PC ，配置如下：
1. 5600x + 华硕 b550M 重炮手 + 华硕 3070 dual
2. q0pv(13900T ES) + 精粤 b760i + 丐图师双风扇 4060ti 16G
第一台 21 年组来打上网游戏的，第二台原本是组来折腾玩异地组网+虚拟化+串流+SD 跑图的二奶机。D4 内存之前便宜的时候屯了不少，有需要就可以插满
现在的问题是，尝试跑大一点的 LLM 显存不够，速度稍慢一点倒无所谓。了解到这玩意可以多卡推理，然后 PC1 的重炮手刚好有两个 x16 槽。另查了一下苏妈也很慷慨，B 系板子支持拆通道插双卡。刚好手上这两张卡 PC1 的机箱应该装得下，3070 是 2.75 槽，4060ti 是 2 槽
那这样双卡合计 24G 显存跑更大一点的 LLM 的推理似乎可行？好像多卡推理是不需要 nvlink 的。目前主要是不清楚不对称的显存跑起来会不会有问题。如果不行，会考虑 3070 扩 16G ，毕竟两张卡性能接近，应该不存在性能拖累的情况
另外纯 CPU 跑个量化的 7B 模型是否可行？ q0pv 毕竟这么多核。尝试了下推理回复需要几分钟，体感基本不可用，不清楚是不可行还是设置有问题。看 github 上有人能跑来着，阿里云也有志强可以运行 LLM 速度达到 5 token/s 的广告。如果家用 CPU 完全不可行就不折腾了

kwater 2024-3-29 18:02:42

看了一堆以为你要训练，
最后一段看明白是想要个本地部署对话。
lmstudio
ollama
都蛮好，后者 gpu 支持更好 amd @windows 也可以
全部跨平台兼容

dbg 2024-3-29 18:03:28

7B 模型能力实在有限。最起码要 14B 的模型，才能做一些翻译类的基础工作。

Vanderick 2024-3-29 18:04:08

直接 ollama

lichdkimba 2024-3-29 18:05:07

@dbg 14B 的话，最差也要用个啥显卡呢

avalox

OP

2024-3-29 18:05:57

@kwater 感谢回复。等哪天想尝试训练就不指望这两张卡了，会老实去租服务器的

想用手头的硬件最低成本尝试下本地 LLM 推理，请教一下方案

浏览过的版块

热门主题

国内面向个人按量计费的大模型 api 就 deep

大家用 AI 官网直接订阅的比例高吗？

未来大模型硬件成本下降 5-10 倍，我们的未

大疆 pocket4 Pro 发布了，和影石 luna ult

关于 opencode 和 claude code 的能力对比

YOU.COM 这家怎么样？和 openroute 比较呢

隔壁站的油猴飞升小助手

收 Mac Max Studio M1 64G+1T 9700 元

独立开发有感

送会员 | 播面--文图音视讲透八股文

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则