结论:会,而且是明显下降。在同一张卡、同一种部署方式下,把 Qwen3.5-35B 的上下文从 18 万 → 26 万 token最大并发量大致会降到原来的~70% 左右

一、为什么会影响并发(核心原理)

在 vLLM 等推理引擎里:

  • 显存主要分两块:模型权重(固定) + KV Cache(动态)
  • KV Cache 是按 max_model_len(上下文长度)× 并发数 线性增长。

简化公式(单卡、同精度、同模型):

最大并发数 ≈ 可用KV显存总量 ÷ 单请求最大上下文长度

你把 max_model_len 从 18w → 26w,分母变大 → 并发数直接被 “挤掉”

二、对你这个模型的具体影响(Qwen3.5-35B)

Qwen3.5-35B(A3B)是混合注意力:只有一部分层做标准注意力、占显存;大部分是线性注意力、不随上下文变长而涨显存。所以它比传统模型友好很多,但依然不是零影响

参考社区实测(80GB 级显卡、fp8/bf16、vLLM):

  • 18 万上下文:大约可跑 8~10 路并发(长文档场景)
  • 26 万上下文:同卡同配置,大约 5.5~7 路并发

简单估算:

26w / 18w ≈ 1.44 → 并发 ≈ 原来的 1/1.44 ≈ 70%

三、除了并发,还会带来什么变化

  1. 单请求显存占用↑:每个请求 KV 缓存多了~44%,更容易触发 OOM。
  2. 首包延迟(TTFT)↑:长文本 prefill 更慢,尤其是批量长请求时。
  3. 吞吐(token/s)略降:并发少了,整体吞吐跟着降,但单请求生成速度基本不变(Qwen3.5 长上下文优化好)。

四、如果你必须开到 26w,怎么尽量保住并发

  1. 用 fp8 量化 KV(强烈推荐):vLLM 加 --kv-cache-dtype fp8,KV 显存直接减半,并发能拉回接近 18w 时的水平。
  2. 降低 gpu_memory_utilization(谨慎):从 0.9 → 0.85~0.8,减少碎片、避免 OOM,但会少一点 KV 空间。
  3. 控制 max_num_seqs:不要设太大,和预估并发匹配,避免无效占用 KV。

五、一句话总结

18w → 26w,并发大致降 3 成左右;用 fp8 可大幅缓解。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐