从技术指标来看,该模型展现出了惊人的效率。在8-bit GGUF 量化版本下,配合 llama.cpp 服务及多 token 预测(MTP)、flash attention 等优化技术,Qwen3.627B 在64K 上下文中能达到32tok/s 的稳定速度。此外,其35B A3B MoE 版本在同等配置下速度甚至能突破100tok/s。

image.png (105.07 KB, 下载次数: 0)
下载附件
保存到相册
1分钟前 上传
更核心的突破在于智力水平。根据 Artificial Analysis 的评分,Qwen3.627B 拿到了37分,这一成绩直接对标了2025年中期的 GPT-5或 Claude Sonnet4.5水平。相比之下,此前作为本地编码模型首选的 Gemma431B 仅为29分。这意味着在短短一年内,本地模型已从两年前的“前沿”跨越到了接近一年前的顶级付费 API 水平。

image.png (207.6 KB, 下载次数: 0)
下载附件
保存到相册
1分钟前 上传
在实际场景测试中,该模型表现同样亮眼。无论是撰写具有复杂押韵要求的八行诗,还是通过 pnpm 自动生成六边形扫雷游戏,Qwen3.627B 均能一次性高质量完成任务。对于开发者而言,本地模型最大的优势在于掌控感——无需担心服务被收回或产生高昂的 API 调用费,模型完全运行在个人硬盘之上。
这一发现标志着一个重要的拐点:当消费级硬件运行的开源模型,智力已足以与顶级付费模型抗衡时,开发者真正拥有了将高性能 AI 植入个人工作流的底气。对于追求生产力与隐私安全的创作者来说,这无疑是目前最值得关注的技术选择之一。

