现在用的是 macbook air 跑龙虾,发现 API 贼贵,短短几句话花了我 150..... 想着用 mac studio 运行 gemma4,大部分的任务就不用接 API 了 大家有试过么? Mac, Gemma4, 本地
M4 Max 64G + oMLX 0.3.1 gemma-4-31b-it-4bit-mlx 版本 没有清空内存顺手跑的 ## Single Request Results | Test | TTFT (ms) | TPOT (ms/tok) | pp TPS | tg TPS | E2E Latency | Throughput | Peak Mem | |---|---:|---:|---:|---:|---:|---:|---:| | pp1024/tg128 | 5558.0 | 52.03 | 184.2 tok/s | 19.4 tok/s | 12.166s | 94.7 tok/s | 18.86 GB | | pp4096/tg128 | 26818.7 | 59.03 | 152.7 tok/s | 17.1 tok/s | 34.316s | 123.1 tok/s | 20.51 GB | ## Continuous Batching ### pp1024 / tg128 | Batch Size | tg TPS | Speedup | pp TPS | pp TPS/req | Avg TTFT (ms) | E2E Latency | |---|---:|---:|---:|---:|---:|---:| | 1x (baseline) | 19.4 tok/s | 1.00x | 184.2 tok/s | 184.2 tok/s | 5558.0 | 12.166s | | 2x | 24.9 tok/s | 1.28x | 140.9 tok/s | 70.5 tok/s | 14531.3 | 24.829s | | 4x | 19.1 tok/s | 0.98x | 133.9 tok/s | 33.5 tok/s | 30593.7 | 57.345s |