我最近在玩 LLaMa 2 模型 偶尔会做格式转换或者量化。很多项目的代码写得不好,加载 70B 的模型就要 140GB 内存,程序只有加载全部权重之后才会开始操作。 量化/转换完毕才开始保存,这样内存使用量轻轻松松达到 200GB 甚至 300GB 以上……因为内存里同时装着操作之前和操作之后的模型。 然而我的电脑只有 128GB 内存,感觉不太够用。 96GB 更不够用了……