跑不太大的模型, 比如 Llama 3.1 8B https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/blob/main/Meta-Llama-3.1-8B-Instruct-Q8_0.gguf 这个模型 16G 内存的丐版也能跑起来。
原本计划买 M4 Max + 128G 跑 ollama 的,后来从 llama 70b 的能力、算力成本和实际应用场景考虑我最终放弃了,感觉还需在在等两年,我认为目前最好的选择还是 ChatGPT 。 希望对你能有些帮助。
我已经懒得试了,最后一次跑本地模型是几个月前 gemini27b ,远不及 gpt3.5 ,勉强能干个不涉及较多专业词汇的简单翻译,功耗在我的 4090 上高达 250W 。。但凡问点其他问题,我都不说回答的对不对了,甚至不能持续稳定保持中文回答。再早几个月的 llama3 更是一坨。 llama3.2 11b 充其量也就那点水平,合理推断也是个弱智 gpt4o 的 apt 都那么便宜了,更不要说 3.5 了,不要骗我浪费电 听显卡电感箫叫了