我下午也碰到过一阵,不过我后来会先把“慢”拆开排,不然很容易都归到模型头上。 我一般先跑一个最小请求,看空上下文下首个 token 的延迟。如果这种也慢,基本就不是上下文太大。然后再看本地代理 / 网络链路,因为 CLI 很容易把网络抖动误判成模型变慢。最后才看是不是并发 session 太多,或者卡在 tool 调用、重连、文件 I/O 这些环节。 如果 status page 看着正常,但体感明显变差,我现在会直接新开一个干净 session 做最小请求对比一下。这样通常很快就能分出来到底是服务端波动,还是本地链路/工具层的问题。