设备配置 显卡:8x4090 ,单张 24564MIB--约 24G 显存(单张可用 60%左右)CentOS 7.6 ,已有 cuda 、python 、docker 环境 需求 暂时采用量化模型,Qwen2.5 32B q6 或者 q8 ( q4km 效果太差了)多卡部署,想充分利用多卡 gpu简易离线部署(优先级小于多卡部署),最好类似 docker 镜像直接保存的方式,也可以使用 python 离线依赖安装的方式,主打一个一次导入,导入太麻烦了。最终需要一个类似open_webui的 web 方案 方案 当前单卡ollama+open_webui效果差,想堪比 gpt 4o (当然没必要太强)能用的程度。llama.cpp 多卡好像支持不太好?vllm 多卡部署好像不支持量化模型,不是很满足需求。TGI 好像可以( Int4 、Int8 、AWQ )但是不太了解。官方还提供 SkyPilot 、OpenLLM 但都不太了解 有没有一种好的方式快速部署
8x4090 跑 ollama ,不如借给我用()(感兴趣可以联系 cXRiYm9zajVzQG1vem1haWwuY29t ,我可以帮你配置环境) 我个人的推荐是 lmdeploy + Qwen2.5 72B awq int8 ,响应速度很快,支持多卡,在 4xV100 上实跑 72B gptq int4 比 vllm 好用