手上有两台 PC ,配置如下:
1. 5600x + 华硕 b550M 重炮手 + 华硕 3070 dual
2. q0pv(13900T ES) + 精粤 b760i + 丐图师双风扇 4060ti 16G
第一台 21 年组来打上网游戏的,第二台原本是组来折腾玩异地组网+虚拟化+串流+SD 跑图的二奶机。D4 内存之前便宜的时候屯了不少,有需要就可以插满
现在的问题是,尝试跑大一点的 LLM 显存不够,速度稍慢一点倒无所谓。了解到这玩意可以多卡推理,然后 PC1 的重炮手刚好有两个 x16 槽。另查了一下苏妈也很慷慨,B 系板子支持拆通道插双卡。刚好手上这两张卡 PC1 的机箱应该装得下,3070 是 2.75 槽,4060ti 是 2 槽
那这样双卡合计 24G 显存跑更大一点的 LLM 的推理似乎可行?好像多卡推理是不需要 nvlink 的。目前主要是不清楚不对称的显存跑起来会不会有问题。如果不行,会考虑 3070 扩 16G ,毕竟两张卡性能接近,应该不存在性能拖累的情况
另外纯 CPU 跑个量化的 7B 模型是否可行? q0pv 毕竟这么多核。尝试了下推理回复需要几分钟,体感基本不可用,不清楚是不可行还是设置有问题。看 github 上有人能跑来着,阿里云也有志强可以运行 LLM 速度达到 5 token/s 的广告。如果家用 CPU 完全不可行就不折腾了