将qwen3.5-35B的token有18w调整为26w会影响并发量吗
·
结论:会,而且是明显下降。在同一张卡、同一种部署方式下,把 Qwen3.5-35B 的上下文从 18 万 → 26 万 token,最大并发量大致会降到原来的~70% 左右。
一、为什么会影响并发(核心原理)
在 vLLM 等推理引擎里:
- 显存主要分两块:模型权重(固定) + KV Cache(动态)。
- KV Cache 是按 max_model_len(上下文长度)× 并发数 线性增长。
简化公式(单卡、同精度、同模型):
最大并发数 ≈ 可用KV显存总量 ÷ 单请求最大上下文长度
你把 max_model_len 从 18w → 26w,分母变大 → 并发数直接被 “挤掉”。
二、对你这个模型的具体影响(Qwen3.5-35B)
Qwen3.5-35B(A3B)是混合注意力:只有一部分层做标准注意力、占显存;大部分是线性注意力、不随上下文变长而涨显存。所以它比传统模型友好很多,但依然不是零影响。
参考社区实测(80GB 级显卡、fp8/bf16、vLLM):
- 18 万上下文:大约可跑 8~10 路并发(长文档场景)
- 26 万上下文:同卡同配置,大约 5.5~7 路并发
简单估算:
26w / 18w ≈ 1.44 → 并发 ≈ 原来的 1/1.44 ≈ 70%
三、除了并发,还会带来什么变化
- 单请求显存占用↑:每个请求 KV 缓存多了~44%,更容易触发 OOM。
- 首包延迟(TTFT)↑:长文本 prefill 更慢,尤其是批量长请求时。
- 吞吐(token/s)略降:并发少了,整体吞吐跟着降,但单请求生成速度基本不变(Qwen3.5 长上下文优化好)。
四、如果你必须开到 26w,怎么尽量保住并发
- 用 fp8 量化 KV(强烈推荐):vLLM 加
--kv-cache-dtype fp8,KV 显存直接减半,并发能拉回接近 18w 时的水平。 - 降低 gpu_memory_utilization(谨慎):从 0.9 → 0.85~0.8,减少碎片、避免 OOM,但会少一点 KV 空间。
- 控制 max_num_seqs:不要设太大,和预估并发匹配,避免无效占用 KV。
五、一句话总结
18w → 26w,并发大致降 3 成左右;用 fp8 可大幅缓解。
更多推荐

所有评论(0)