国产几个 benchmark 分高的都试过,minimax m2 / kimi-k2-thinking / glm-4.6 ,都不太行。 同一个 agent 同样的环境和提示词,用 minimax m2 跑了一刀乐没跑出结果;用 sonnet 4.5 一句就解决问题