在本地部署了 ollama 的 API 做生成任务,现在有 4 块 A800 的 GPU ,ollama 已经开启了并行任务。 现在的问题是,模型速度提不上去,GPU 也没有跑满,占用在 80%左右,显存也只用了 1/2 。 是其他什么硬件到了瓶颈吗?影响模型生成速度的内存带宽?如何能提升速度?
@CNYoki llama.cpp 似乎不支持张量并行,就算 4 张卡显存占满了也跑不快. https://www.bilibili.com/video/BV1DH4y1c7gK/ 可以参考一下这个, 换个 vllm 啊啥的后端一般就是随便跑了