现在想直接在线试用的话比较方便了。
模型支持流式输出,使用方式我做了一些改动, 更接近于 Claude 或 stable-lm, 需要按照特定格式自行组织多轮对话的 prompt 。
如果不按多轮对话格式组织 prompt ,那就是一般的 completion 方式运行。
Replicate 平台上 GPU 用得 A100 40G, 模型 FP32 满血运行。
个人主观感受 FP32 的质量比默认的 FP16 要好。
Docker 镜像有 30G ,如果需要冷启动的话,冷启动时间是 5 分钟,用的人多了之后才会比较舒适。
运行地址 https://replicate.com/nomagick/chatglm2-6b
Cog 源码 https://github.com/nomagick/ChatGLM2-6B-cog
原模型 https://github.com/THUDM/ChatGLM2-6B
注意我只是开源开发者,和原模型与 Replicate 均无一分钱关系,模型在 Replicate 上运行我也不会有任何收入。
原模型只授权了研究用途。