大家好,我之前没有这方面的经验,但现在有个小的 project ,想请教咨询一下大家。大致上来说,我有一个 node ,为 40G A100 + 128GB 内存,需要部署的是通义千问 7B 。 [ol]这个配置跑这样的模型 ok 吗?想找部署在远端的 node 上的教程,搜索什么关键词比较好?这样的部署,大概需要多长的时间呢?假设部署好了,想从外部访问怎么做到呢?如果再加上 RAG 的话,难度/时间大概是什么样的?有没有其它需要注意的地方? [/ol] 目前看的教程感觉有点乱,希望大家指导,谢谢各位🌹
1. 7B ,7*4 大概要 28G 显存,加上一些推理时的消耗,40G 也够了 2. 你去魔塔社区或者 hugging face 直接搜索 tongyi 7B, 有直接运行的测试代码,不过没有超参调节,需要你自己后续加 3. 看你的需求了,因为还有一些上下文配置,超参调节,终止词配置等等,很多细枝末节,你应该先跑起来
1. 40G 可以跑 7B 的模型。 2. ollama 是比较方便的部署方式,如果想并发性能更好一些,可以使用 vllm 来推理。 3. 熟练的话就很快,不熟的话照着文档来部署。 4. ollama 和 vllm 都支持兼容 openai API 接口,就是 http 调用。 5. 上 RAG 可以使用集成好的框架,比如 dify 之类的。 6. 上 RAG 的话,还需要 EMBEDDING 和 RERANK 的模型,具体可以看 dify 的文档。