ollama 本地模型 GPU 跑不满

作者：CNYoki 发布时间：2024-7-23 19:01:14

在本地部署了 ollama 的 API 做生成任务，现在有 4 块 A800 的 GPU ，ollama 已经开启了并行任务。
现在的问题是，模型速度提不上去，GPU 也没有跑满，占用在 80%左右，显存也只用了 1/2 。
是其他什么硬件到了瓶颈吗？影响模型生成速度的内存带宽？如何能提升速度？

1119745302 2024-7-23 19:01:44

换个后端?

CNYoki

OP

2024-7-23 19:02:30

@1119745302 #1 这个跟后端没太大关系吧，直接用的 python 调的 ollama 的库

KylinYou 2024-7-23 19:03:29

在 llama.cpp 那边提个 issue 呢

swulling 2024-7-23 19:04:12

为啥 A800 还用 ollama 或 llama.cpp 。直接用 vLLM 。

neteroster 2024-7-23 19:04:50

用 vLlm 。

CNYoki

OP

2024-7-23 19:05:29

vLLM 现在有 json mode 了吗

0x3933030 2024-7-23 19:06:12

只有卡 0 用起来了，怎么想都是模型实现的问题

CNYoki

OP

2024-7-23 19:06:48

@0x3933030 #7 再加载另一个模型的话，ollam 会优先放在空闲的卡上。但是单模型不知道为什么就是推理速度起不来

1119745302 2024-7-23 19:07:47

@CNYoki llama.cpp 似乎不支持张量并行,就算 4 张卡显存占满了也跑不快. https://www.bilibili.com/video/BV1DH4y1c7gK/ 可以参考一下这个, 换个 vllm 啊啥的后端一般就是随便跑了

ollama 本地模型 GPU 跑不满

浏览过的版块

热门主题

PythonStreamlit个人博客v1.19

sublime自制UI按钮插件，markdown等多种功

看看报纸，v1.2.3

阿香婆看图工具Ashampoo Photo Commander_v

公务员局：46周岁以下可报考

大学英语专业是不是垃圾专业？

万网真聪明！BA域名原来是偷偷"卖&quo

关于代理采集怎样才能有效防范策略~！

像這類配置的小雞，交互類網站是否最好只運

CloudCone CC Pre-Black Friday VPS Sale

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

ollama 本地模型 GPU 跑不满

浏览过的版块

热门主题

PythonStreamlit个人博客v1.19

sublime自制UI按钮插件，markdown等多种功

看看报纸，v1.2.3

阿香婆看图工具Ashampoo Photo Commander_v

公务员局：46周岁以下可报考

大学英语专业是不是垃圾专业？

万网真聪明！BA域名原来是偷偷&quot;卖&quo

关于代理采集怎样才能有效防范策略~！

像這類配置的小雞，交互類網站是否最好只運

CloudCone CC Pre-Black Friday VPS Sale

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

万网真聪明！BA域名原来是偷偷"卖&quo

在 Yoo趣儿投放广告