将qwen3.5-35B的token有18w调整为26w会影响并发量吗

bloglin99999

189人浏览 · 2026-04-24 14:29:12

bloglin99999 · 2026-04-24 14:29:12 发布

结论：会，而且是明显下降。在同一张卡、同一种部署方式下，把 Qwen3.5-35B 的上下文从 18 万 → 26 万 token，最大并发量大致会降到原来的～70% 左右。

一、为什么会影响并发（核心原理）

在 vLLM 等推理引擎里：

显存主要分两块：模型权重（固定） + KV Cache（动态）。
KV Cache 是按 max_model_len（上下文长度）× 并发数 线性增长。

简化公式（单卡、同精度、同模型）：

最大并发数 ≈ 可用KV显存总量 ÷ 单请求最大上下文长度

你把 max_model_len 从 18w → 26w，分母变大 → 并发数直接被 “挤掉”。

二、对你这个模型的具体影响（Qwen3.5-35B）

Qwen3.5-35B（A3B）是混合注意力：只有一部分层做标准注意力、占显存；大部分是线性注意力、不随上下文变长而涨显存。所以它比传统模型友好很多，但依然不是零影响。

参考社区实测（80GB 级显卡、fp8/bf16、vLLM）：

18 万上下文：大约可跑 8～10 路并发（长文档场景）
26 万上下文：同卡同配置，大约 5.5～7 路并发

简单估算：

26w / 18w ≈ 1.44 → 并发 ≈ 原来的 1/1.44 ≈ 70%

三、除了并发，还会带来什么变化

单请求显存占用↑：每个请求 KV 缓存多了～44%，更容易触发 OOM。
首包延迟（TTFT）↑：长文本 prefill 更慢，尤其是批量长请求时。
吞吐（token/s）略降：并发少了，整体吞吐跟着降，但单请求生成速度基本不变（Qwen3.5 长上下文优化好）。

四、如果你必须开到 26w，怎么尽量保住并发

用 fp8 量化 KV（强烈推荐）：vLLM 加 --kv-cache-dtype fp8，KV 显存直接减半，并发能拉回接近 18w 时的水平。
降低 gpu_memory_utilization（谨慎）：从 0.9 → 0.85～0.8，减少碎片、避免 OOM，但会少一点 KV 空间。
控制 max_num_seqs：不要设太大，和预估并发匹配，避免无效占用 KV。

五、一句话总结

18w → 26w，并发大致降 3 成左右；用 fp8 可大幅缓解。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

为什么 Superpowers 的 brainstorming skill 坚决不写代码？我翻了它的源文件

实际感受：码哥有一次做一个有 8 个任务的功能，用 executing-plans 跑，跑到第五个任务时 Claude 开始"综合"前面几个任务的修改，把一个已经通过的测试改坏了。这种粒度设计的目的是：让 subagent 或者你自己在执行时，每一步都有明确的完成判定标准，不会"做了一半，不知道算不算完成"。大多数人跑到步骤 4-5 就觉得"差不多了，直接写吧"，结果设计没有落到文档里，后面执行阶

DeepSeek技术社区

ADK 模型抽象与多模型集成：从 Gemini 到 Ollama

ADK 模型抽象层以极简LLM接口实现模型与业务解耦，仅含Name()、GenerateContent()两方法，流式为一等公民，统一迭代器返回格式，复用 genai 标准多模态结构并预留自定义元数据扩展。内置 Gemini 原生实现、Apigee 企业代理两层封装，配套流式聚合器分片组装文本与增量函数调用参数；支持插件动态切换模型，新增本地模型仅需实现接口完成双向格式转换，分层架构兼顾开发便捷性