之前有一个 2018 年的 mac intel 16g 的 mbp ,但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。
有时候偶尔本地跑下大模型推理,使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型,发现 2018 mbp 的更加流畅(目测 10token/秒),2023 mbp 比较卡顿(目测 3token/秒)。
问题:
准备入手一个 Mac mini 24g , 想问下有没有大佬测试过,Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。