想用手头的硬件最低成本尝试下本地 LLM 推理,请教一下方案

查看 55|回复 5
作者:avalox   
非 AI 专业,为了不掉队跑着玩的,所以目的是利用手头硬件最低成本折腾一下
手上有两台 PC ,配置如下:
1. 5600x + 华硕 b550M 重炮手 + 华硕 3070 dual
2. q0pv(13900T ES) + 精粤 b760i + 丐图师双风扇 4060ti 16G
第一台 21 年组来打上网游戏的,第二台原本是组来折腾玩异地组网+虚拟化+串流+SD 跑图的二奶机。D4 内存之前便宜的时候屯了不少,有需要就可以插满
现在的问题是,尝试跑大一点的 LLM 显存不够,速度稍慢一点倒无所谓。了解到这玩意可以多卡推理,然后 PC1 的重炮手刚好有两个 x16 槽。另查了一下苏妈也很慷慨,B 系板子支持拆通道插双卡。刚好手上这两张卡 PC1 的机箱应该装得下,3070 是 2.75 槽,4060ti 是 2 槽
那这样双卡合计 24G 显存跑更大一点的 LLM 的推理似乎可行?好像多卡推理是不需要 nvlink 的。目前主要是不清楚不对称的显存跑起来会不会有问题。如果不行,会考虑 3070 扩 16G ,毕竟两张卡性能接近,应该不存在性能拖累的情况
另外纯 CPU 跑个量化的 7B 模型是否可行? q0pv 毕竟这么多核。尝试了下推理回复需要几分钟,体感基本不可用,不清楚是不可行还是设置有问题。看 github 上有人能跑来着,阿里云也有志强可以运行 LLM 速度达到 5 token/s 的广告。如果家用 CPU 完全不可行就不折腾了
kwater   
看了一堆以为你要训练,
最后一段看明白是想要个本地部署对话。
lmstudio
ollama
都蛮好,后者 gpu 支持更好 amd @windows 也可以
全部跨平台兼容
dbg   
7B 模型能力实在有限。最起码要 14B 的模型,才能做一些翻译类的基础工作。
Vanderick   
直接 ollama
lichdkimba   
@dbg 14B 的话,最差也要用个啥显卡呢
avalox
OP
  
@kwater 感谢回复。等哪天想尝试训练就不指望这两张卡了,会老实去租服务器的
您需要登录后才可以回帖 登录 | 立即注册

返回顶部