llama3 在 m3max 和 4090 推理速度

mac：14 寸 m3max 40 核 GPU ，64G
pc: 12700+4090+64G
8b 模型，mac 大概是~50tokens/s,pc 是~100tokens/s （显存吃了 5G 多一点）
70b 模型，mac 大概是 8.8tokens/s(40G 左右内存), pc 是 1.8tokens/s(显存是 23G 左右+20G 左右的内存)
70b 模型，pc 速度慢大概是因为显存不够，如果换 6000 ada 的话，同等算力目测可以到 15tokens/s 。mac70b 的速度感觉跟 chatgpt4 的速度差不多，速度上相当可用了，但是准确性和记忆力跟 gpt4 还是不能比，中文能力 llama 也比较拉胯。对个人来说本地部署完全没必要，免费的用用完全够，不够就上 gpt4 ，开源闭源差距还是不小的
另外想听听各位对于本地大语言模型在企业内(传统行业，比如制造业 [包含但不仅限于] )的应用的想法
视频版可以去

llama3 在 m3max 和 4090 推理速度

浏览过的版块

热门主题

陈年旧事之小米是我成年之后第一个教训

特朗普政府悄悄补缴WTO会费

阿里通义千问客户端：Qwen Chat 1.0.3

兄弟们啊，做站养不活自己，焦虑的睡不着咋

某安全网站fr**buf 网络安全攻防实验室值

在58同城想发个广告，发不出去，也不提示哪

域名摆在重要位置！

求赐名，女宝，姓王，预产 1 月中旬蛇宝

听说现在杭州医院都不配原研药了

可乐当水喝会有什么问题？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

llama3 在 m3max 和 4090 推理速度

浏览过的版块

热门主题

陈年旧事之小米是我成年之后第一个教训

特朗普政府悄悄补缴WTO会费

阿里通义千问客户端：Qwen Chat 1.0.3

兄弟们啊，做站养不活自己，焦虑的睡不着咋

某安全网站fr**buf 网络安全攻防实验室 值

在58同城想发个广告，发不出去，也不提示哪

域名摆在重要位置！

求赐名，女宝，姓王，预产 1 月中旬 蛇宝

听说现在杭州医院都不配原研药了

可乐当水喝 会有什么问题？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

某安全网站fr**buf 网络安全攻防实验室值

求赐名，女宝，姓王，预产 1 月中旬蛇宝

可乐当水喝会有什么问题？

在 Yoo趣儿投放广告