tps 这个玩意相关因素比较多,模型架构,部署架构,实际投入的硬件资源。 国产模型大部分 tps 的优先级低,先天架构就不足,快不起来。加上现在都处于高负载状态,能维持可用性和长上下文就已经资源耗尽了,tps 完全顾不上。 对于 agent 来说,tps 真的非常重要,在我看来甚至高于长上下文。上下文超过 200K 后边际效用就很低了,而对等的 tps 最起码要到 100 才用的舒服。