我把 ChatGLM2-6B 上传到了 Replicate 平台上,满血模型,在线试用

查看 44|回复 2
作者:nomagick   
这个模型的质量还是非常不错的。
现在想直接在线试用的话比较方便了。
模型支持流式输出,使用方式我做了一些改动, 更接近于 Claude 或 stable-lm, 需要按照特定格式自行组织多轮对话的 prompt 。
如果不按多轮对话格式组织 prompt ,那就是一般的 completion 方式运行。
Replicate 平台上 GPU 用得 A100 40G, 模型 FP32 满血运行。
个人主观感受 FP32 的质量比默认的 FP16 要好。
Docker 镜像有 30G ,如果需要冷启动的话,冷启动时间是 5 分钟,用的人多了之后才会比较舒适。
运行地址 https://replicate.com/nomagick/chatglm2-6b
Cog 源码 https://github.com/nomagick/ChatGLM2-6B-cog
原模型 https://github.com/THUDM/ChatGLM2-6B
注意我只是开源开发者,和原模型与 Replicate 均无一分钱关系,模型在 Replicate 上运行我也不会有任何收入。
原模型只授权了研究用途。

模型, replicate, fp32, prompt

dvbs2000   
提示这个:
模型启动有时可能需要大约 3 到 5 分钟。如果您想详细了解为什么会发生这种情况,请查看我们的复制工作原理指南中有关冷启动的部分。
是不是每个人使用都需要冷启动
nomagick
OP
  
@dvbs2000 你启动完了下一个人就不用冷启动了,但如果一段时间没人调用的话他就会 scale to 0 ,再下一个人就又需要冷启动了
您需要登录后才可以回帖 登录 | 立即注册

返回顶部