ollama 本地模型 GPU 跑不满

查看 60|回复 9
作者:CNYoki   
在本地部署了 ollama 的 API 做生成任务,现在有 4 块 A800 的 GPU ,ollama 已经开启了并行任务。
现在的问题是,模型速度提不上去,GPU 也没有跑满,占用在 80%左右,显存也只用了 1/2 。
是其他什么硬件到了瓶颈吗?影响模型生成速度的内存带宽?如何能提升速度?





1119745302   
换个后端?
CNYoki
OP
  
@1119745302 #1 这个跟后端没太大关系吧,直接用的 python 调的 ollama 的库
KylinYou   
在 llama.cpp 那边提个 issue 呢
swulling   
为啥 A800 还用 ollama 或 llama.cpp 。直接用 vLLM 。
neteroster   
用 vLlm 。
CNYoki
OP
  
vLLM 现在有 json mode 了吗
0x3933030   
只有卡 0 用起来了,怎么想都是模型实现的问题
CNYoki
OP
  
@0x3933030 #7 再加载另一个模型的话,ollam 会优先放在空闲的卡上。但是单模型不知道为什么就是推理速度起不来
1119745302   
@CNYoki llama.cpp 似乎不支持张量并行,就算 4 张卡显存占满了也跑不快. https://www.bilibili.com/video/BV1DH4y1c7gK/ 可以参考一下这个, 换个 vllm 啊啥的后端一般就是随便跑了
您需要登录后才可以回帖 登录 | 立即注册

返回顶部