8x4090 离线部署 Qwen2.5 求助

查看 48|回复 6
作者:fid   
设备配置
  • 显卡:8x4090 ,单张 24564MIB--约 24G 显存(单张可用 60%左右)
  • CentOS 7.6 ,已有 cuda 、python 、docker 环境

    需求
  • 暂时采用量化模型,Qwen2.5 32B q6 或者 q8 ( q4km 效果太差了)
  • 多卡部署,想充分利用多卡 gpu
  • 简易离线部署(优先级小于多卡部署),最好类似 docker 镜像直接保存的方式,也可以使用 python 离线依赖安装的方式,主打一个一次导入,导入太麻烦了。
  • 最终需要一个类似open_webui的 web 方案

    方案
  • 当前单卡ollama+open_webui效果差,想堪比 gpt 4o (当然没必要太强)能用的程度。
  • llama.cpp 多卡好像支持不太好?
  • vllm 多卡部署好像不支持量化模型,不是很满足需求。
  • TGI 好像可以( Int4 、Int8 、AWQ )但是不太了解。
  • 官方还提供 SkyPilot 、OpenLLM 但都不太了解

    有没有一种好的方式快速部署
  • qiniu2025   
    拿个 32B 开源想跟现在行业龙头 gpt 4o 比,你要给用户提供什么服务? 这种聊天机器人满大街都是
    fid
    OP
      
    @qiniu2025 #1 自用,离线环境部署只能选 32B
    Leon6868   
    8x4090 跑 ollama ,不如借给我用()(感兴趣可以联系 cXRiYm9zajVzQG1vem1haWwuY29t ,我可以帮你配置环境)
    我个人的推荐是 lmdeploy + Qwen2.5 72B awq int8 ,响应速度很快,支持多卡,在 4xV100 上实跑 72B gptq int4 比 vllm 好用
    mmjy   
    vllm 文档是有量化实验特性支持的,可以试试好不好用: https://docs.vllm.ai/en/latest/quantization/auto_awq.html
    GPLer   
    8x24GB 为什么不上 72B ,是要考虑多用户使用的情况吗。
    Livid   
    https://github.com/exo-explore/exo
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部