关于在本地部署开源模型的一些问题请教

查看 123|回复 7

作者：ddvswgg 发布时间：2024-8-12 19:02:47

大家好，我之前没有这方面的经验，但现在有个小的 project ，想请教咨询一下大家。大致上来说，我有一个 node ，为 40G A100 + 128GB 内存，需要部署的是通义千问 7B 。
[ol]

这个配置跑这样的模型 ok 吗？

想找部署在远端的 node 上的教程，搜索什么关键词比较好？

这样的部署，大概需要多长的时间呢？

假设部署好了，想从外部访问怎么做到呢？

如果再加上 RAG 的话，难度/时间大概是什么样的？

有没有其它需要注意的地方？
[/ol]
目前看的教程感觉有点乱，希望大家指导，谢谢各位🌹

ztm0929 2024-8-12 19:03:41

仔细翻一下 ollama 的文档，应该能解决你的问题，可以实现 API 访问
https://github.com/ollama/ollama

312ybj 2024-8-12 19:04:26

1. 7B ，7*4 大概要 28G 显存，加上一些推理时的消耗，40G 也够了
2. 你去魔塔社区或者 hugging face 直接搜索 tongyi 7B, 有直接运行的测试代码，不过没有超参调节，需要你自己后续加
3. 看你的需求了，因为还有一些上下文配置，超参调节，终止词配置等等，很多细枝末节，你应该先跑起来

aiqinxuancai 2024-8-12 19:05:00

7b 拿用的上 A100 ，72B 吧？

312ybj 2024-8-12 19:05:54

4. 外部访问，你再用 fastapi + sse 就能流失返回数据了

312ybj 2024-8-12 19:06:40

5. 你先把部署弄好再说，如果你要简单的 RAG ，去看 langchain ，有现成的开源的，看能不能直接用

clvin 2024-8-12 19:07:28

1. 40G 可以跑 7B 的模型。
2. ollama 是比较方便的部署方式，如果想并发性能更好一些，可以使用 vllm 来推理。
3. 熟练的话就很快，不熟的话照着文档来部署。
4. ollama 和 vllm 都支持兼容 openai API 接口，就是 http 调用。
5. 上 RAG 可以使用集成好的框架，比如 dify 之类的。
6. 上 RAG 的话，还需要 EMBEDDING 和 RERANK 的模型，具体可以看 dify 的文档。

cinlen 2024-8-12 19:08:21

ollama + dify

关于在本地部署开源模型的一些问题请教

浏览过的版块

热门主题

ioio事件是什么鬼？

养老贷又来了，贷贷相传啊

今天要撸2次

好评有礼给的是红包还是优惠卷

现在干啥都太难了，珍惜吧

淘宝现在也好难搞啊

现在的ai能生产图文结合的内容吗

周固固突然发飙了，谁惹他了呢？吃光群众等

怎么吵架了啊

老坛们看过来，周固固同志狂撒金币。折射一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

关于在本地部署开源模型的一些问题请教

浏览过的版块

热门主题

ioio事件是什么鬼？

养老贷又来了，贷贷相传啊

今天要撸2次

好评有礼给的是红包还是优惠卷

现在干啥都太难了，珍惜吧

淘宝现在也好难搞啊

现在的ai能生产图文结合的内容吗

周固固突然发飙了，谁惹他了呢？吃光群众等

怎么吵架了啊

老坛们看过来，周固固同志狂撒金币。折射一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告