今天自己用 ollama 搭大模型时候发现 llama 3.2 vision 11b 其实要求颇高 参照 R 站测评结果 一张图等于要 1 分多钟才能反馈 丐版 m4 其实能顺利跑起来的也就是 llama3.2 3b 回到了两年前文字大模型的时代 真要搞还真至少得内存拉满
我跑了,内存够,可以跑,速度一样,半分多钟才出结果,GPU 和内存性能低了。Pro 和 Max 会好一些 不过真要用肯定直接接别家 API 了,搞开发的话,哪怕是 max ,好像修改模型的性能根本不够,一时间还真想不到应用场景...只能说可以学习的时候用下。有谁想得到其他的应用场景吗?
同样的 qwen2.5 14B q4 量化模型,推理速度 m4 16g 不如 m1 pro 32g 。大模型对内存带宽的要求挺高的,m4 的内存带宽只有 120GB/s 。 至于应用场景,我之前也很推崇本地大模型,毕竟数据隐私能够得到保证。但是目前开源模型( 32B 以下)的质量明显不如商用模型,真的硬要找个应用场景的话,放在家里当个智能语音助手蛮好。
@yavdein https://qwenlm.github.io/blog/qwq-32b-preview/ 看数据很厉害,实际效果就不知道了,我已经不想测试了哈哈,前面好几个开源模型脚踢 o1 ,拳打 Claude3.5 的,实际测试效果真的很一般。