8x4090 离线部署 Qwen2.5 求助

查看 106|回复 6

作者：fid 发布时间：2024-12-2 22:00:48

设备配置

显卡：8x4090 ，单张 24564MIB--约 24G 显存（单张可用 60%左右）

CentOS 7.6 ，已有 cuda 、python 、docker 环境

需求

暂时采用量化模型，Qwen2.5 32B q6 或者 q8 （ q4km 效果太差了）

多卡部署，想充分利用多卡 gpu

简易离线部署（优先级小于多卡部署），最好类似 docker 镜像直接保存的方式，也可以使用 python 离线依赖安装的方式，主打一个一次导入，导入太麻烦了。

最终需要一个类似open_webui的 web 方案

方案

当前单卡ollama+open_webui效果差，想堪比 gpt 4o （当然没必要太强）能用的程度。

llama.cpp 多卡好像支持不太好？

vllm 多卡部署好像不支持量化模型，不是很满足需求。

TGI 好像可以（ Int4 、Int8 、AWQ ）但是不太了解。

官方还提供 SkyPilot 、OpenLLM 但都不太了解

有没有一种好的方式快速部署

qiniu2025 2024-12-2 22:01:29

拿个 32B 开源想跟现在行业龙头 gpt 4o 比,你要给用户提供什么服务? 这种聊天机器人满大街都是

fid

2024-12-2 22:02:17

@qiniu2025 #1 自用，离线环境部署只能选 32B

Leon6868 2024-12-2 22:02:55

8x4090 跑 ollama ，不如借给我用（）（感兴趣可以联系 cXRiYm9zajVzQG1vem1haWwuY29t ，我可以帮你配置环境）
我个人的推荐是 lmdeploy + Qwen2.5 72B awq int8 ，响应速度很快，支持多卡，在 4xV100 上实跑 72B gptq int4 比 vllm 好用

mmjy 2024-12-2 22:03:29

vllm 文档是有量化实验特性支持的，可以试试好不好用： https://docs.vllm.ai/en/latest/quantization/auto_awq.html

GPLer 2024-12-2 22:04:12

8x24GB 为什么不上 72B ，是要考虑多用户使用的情况吗。

Livid 2024-12-2 22:04:44

https://github.com/exo-explore/exo

8x4090 离线部署 Qwen2.5 求助

浏览过的版块

热门主题

ioio事件是什么鬼？

养老贷又来了，贷贷相传啊

今天要撸2次

好评有礼给的是红包还是优惠卷

现在干啥都太难了，珍惜吧

淘宝现在也好难搞啊

现在的ai能生产图文结合的内容吗

周固固突然发飙了，谁惹他了呢？吃光群众等

怎么吵架了啊

老坛们看过来，周固固同志狂撒金币。折射一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

8x4090 离线部署 Qwen2.5 求助

浏览过的版块

热门主题

ioio事件是什么鬼？

养老贷又来了，贷贷相传啊

今天要撸2次

好评有礼给的是红包还是优惠卷

现在干啥都太难了，珍惜吧

淘宝现在也好难搞啊

现在的ai能生产图文结合的内容吗

周固固突然发飙了，谁惹他了呢？吃光群众等

怎么吵架了啊

老坛们看过来，周固固同志狂撒金币。折射一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告