国产大模型横评 2026 年中：Qwen3.5 / DeepSeek V4 / Doubao-Seed-2.0-pro / Kimi 谁是真王者？

LDZKKJ

676人浏览 · 2026-06-14 16:36:07

LDZKKJ · 2026-06-14 16:36:07 发布

国产大模型横评 2026 年中：Qwen3.5 / DeepSeek V4 / Doubao-Seed-2.0-pro / Kimi 谁是真王者？

2026 年上半年，国产大模型市场上演了一场令人血脉偾张的"军备竞赛"：

2 月 11 日，智谱 GLM-5 抢先开年，在 SWE-bench Verified 榜单冲进第一梯队
2 月 14 日，字节 Doubao-Seed-2.0-pro 上线，256K 上下文 + 原生多模态
2 月 15 日，阿里 Qwen3.5-Plus 横空出世，1M 上下文 + 397B MoE
3 月 17 日，MiniMax M2.7 用 Lightning Attention 把 4M 上下文卷到了 $0.30/M
4 月 20 日，月之暗面 Kimi K2.6 开源，SWE-Bench Pro 拿下 58.6%，首次超越 GPT-5.4
4 月 24 日，DeepSeek V4 上线并开源，万亿参数 + 1M 上下文，价格只有 Claude Opus 的 1/6

六款国产旗舰，每一款都自称"开源最强 / 性价比之王 / 代码 SOTA"。但作为天天写代码、天天看账单的开发者，我们要的不是营销话术，而是真实业务场景下的选型指南。

本文延续上一篇《2026 主流大模型 API 横评》的方法论，从通用能力、代码能力、长文本、中文理解、推理能力、性价比、响应速度七大维度，对 2026 年中六款主流国产大模型进行系统横评，并在文末给出明确的场景化决策矩阵。

评测对象总览

为避免"苹果和橘子"的比较，我们选择各家在 2026 年上半年发布、且公开提供 API 的最新旗舰模型：

模型	厂商	发布时间	参数规模	上下文	输入价	输出价	多模态
Qwen3.5-Plus	阿里云	2026-02-15	397B/17B MoE	1M	¥0.8	¥8	✅ 文/图/视频
DeepSeek V4-Pro	DeepSeek	2026-04-24	1.6T/49B MoE	1M	¥12	¥24	❌
Doubao-Seed-2.0-pro	字节火山	2026-02-14	未公布	256K	¥3.41	¥17.04	✅ 文/图
Kimi K2.6	月之暗面	2026-04-20	1T/32B MoE	256K	¥6.8	¥28	✅ 文/图/视频
GLM-5.1	智谱	2026-03-27	未公布	200K	¥6	¥24	✅ 文/图
MiniMax M2.7	MiniMax	2026-03-17	Lightning Attn	200K（推理）/4M（Text-01）	¥2.1	¥8.4	❌

说明：价格以官方/百炼/火山方舟 2026 年 6 月人民币定价为准，按汇率换算后与海外 OpenRouter / TokenMix 等聚合渠道的美元价格存在微小差异；DeepSeek V4-Pro 的 ¥12 输入指缓存未命中价，命中缓存后降为 ¥1（数据来源：DeepSeek V4 深度解析、Qwen API Pricing、Doubao API Setup 2026）。

六款模型放在一张表里，几个结构性事实已经浮出水面：

MoE 是国产共识：除 Doubao 外，全部走稀疏 MoE 路线，激活参数 13B-49B，推理成本可控
百万级上下文成标配：Qwen3.5 / DeepSeek V4 把 1M 卷成"地板配置"，MiniMax-Text-01 甚至给到 4M
多模态阵营加大：6 选 4 原生支持视觉/视频输入，纯文本派只剩 DeepSeek 和 MiniMax M2
价格梯度极陡：最便宜的 Qwen3.5-Plus（¥0.8/M 输入）和最贵的 Kimi K2.6（¥28/M 输出）之间差了 35 倍

维度一：通用能力（综合 Benchmark）

通用能力是模型的"基本盘"。我们采集了厂商官方公布 + 第三方机构（Artificial Analysis、Arena.ai、Vals AI）交叉验证的核心 benchmark：

模型	MMLU-Pro	HLE	GPQA Diamond	AAI 智能指数	综合排位
DeepSeek V4-Pro	84.2	38.5	72.8	52	开源第 2
Kimi K2.6	83.6	44.5	75.2	54	开源第 1
Qwen3.5-Plus	82.0	33.1	70.5	48	第一梯队
GLM-5.1	81.8	50.4	86.0	49	推理强项
Doubao-Seed-2.0-pro	80.5	31.0	68.4	46	多模态强
MiniMax M2.7	78.2	28.3	65.1	50	性价比王

数据来源：Frank X. AI - DeepSeek V4 Analysis、DataLearnerAI、Best MiniMax Models 2026、Aicoderscope - Kimi K2.6 Review。注：HLE = Humanity’s Last Exam，GPQA Diamond 为博士级科学推理。

关键观察：

Kimi K2.6 在 Artificial Analysis Intelligence Index 上以 54 分蝉联开源第一，是当前唯一在通用智能维度逼近 GPT-5.5 / Claude Opus 4.7 闭源旗舰的国产模型
GLM-5.1 在 HLE 和 GPQA Diamond 上意外拿下国产第一（50.4 / 86.0），证明智谱在"高难度推理"上的多年积累有兑现
DeepSeek V4-Pro 综合排第二，与 Kimi K2.6 差距仅 2 分，但价格只有 Kimi 的一半
MiniMax M2.7 综合排名出乎意料地高（AAI 50），主要靠 Lightning Attention 在长程任务上"以低成本博高分"

一句话结论：通用能力第一梯队是 Kimi K2.6 ≈ DeepSeek V4-Pro > GLM-5.1 ≈ Qwen3.5-Plus ≈ MiniMax M2.7 > Doubao-Seed-2.0-pro。

值得特别注意的是，通用能力指标对真实业务的指导意义其实有限——MMLU-Pro 测的是学科知识、HLE 考的是博士级专业问题、GPQA 关心的是科学推理，这些维度跟"日常做客服对话"“分析公司财报”"生成营销文案"几乎没有直接关系。所以这里的排序更适合作为"模型实力底座"的参考，真正的选型决策必须落到具体细分维度上。这也是本文后续六个维度横评的目的——把"综合智能"拆成可观测、可决策的具体能力。

维度二：代码能力

代码是 2026 年大模型最卷的赛道，几乎所有国产厂商都在 SWE-Bench 上互相"刺刀见红"：

# 各模型代码能力 benchmark（2026 年 6 月数据）
CODE_BENCHMARK = {
    "Kimi K2.6": {
        "SWE-Bench Verified": 80.4,
        "SWE-Bench Pro": 58.6,        # 🥇 开源第一，超越 GPT-5.4
        "LiveCodeBench v6": 89.6,
        "Terminal-Bench 2.0": 66.7,   # 🥇 击败 Claude Opus 4.6
        "HumanEval": 94.8,
        "verdict": "代码王者，长程编码 13 小时不掉链子"
    },
    "DeepSeek V4-Pro": {
        "SWE-Bench Verified": 80.6,   # 与 Claude Opus 4.6 差 0.x 分
        "SWE-Bench Pro": 56.2,
        "LiveCodeBench v6": 88.1,
        "Vibe Code Benchmark": "开源第 1（Vals AI）",  # 比 V3.2 跃升 10 倍
        "HumanEval": 93.5,
        "verdict": "代码生成质量稳，价格只有 Kimi 1/2"
    },
    "Doubao-Seed-2.0-pro": {
        "SWE-Bench Verified": 72.3,
        "LiveCodeBench v6": 82.5,
        "verdict": "原生 VLM 编程，能看懂设计稿生成代码"
    },
    "Qwen3.5-Plus": {
        "SWE-Bench Verified": 71.8,
        "LiveCodeBench v6": 81.2,
        "HumanEval": 91.0,
        "verdict": "全能选手，coder-next 子模型代码更强"
    },
    "GLM-5.1": {
        "SWE-Bench Verified": 75.0,
        "Coding Eval (Claude Code framework)": 45.3,  # 仅低 Opus 4.6 2.6 分
        "verdict": "Agent 编程强，能跑 8 小时长程任务"
    },
    "MiniMax M2.7": {
        "SWE-Bench Pro": 56.2,
        "Terminal Bench 2": 57.0,
        "verdict": "便宜量大，开源 Agent 编程首选"
    },
}

数据来源：Kimi K2.6 正式发布、DeepSeek V4 测评、GLM-5.1 评测。

关键洞察：

Kimi K2.6 是当之无愧的代码之王：SWE-Bench Pro 58.6% 是首个超越 GPT-5.4（57.7%）的开源模型，Terminal-Bench 2.0 也击败 Claude Opus 4.6
DeepSeek V4-Pro 紧追：在 SWE-Bench Verified 上 80.6% vs Kimi 80.4%，几乎打平
Doubao-Seed-Code 的独有优势：国内唯一原生 VLM 编程模型，能直接"看"设计稿生成代码——这是其他国产模型暂时不具备的能力（CSDN 实测）
GLM-5.1 的"Agent 编程"路线：在 Claude Code 框架内测出 45.3 分，仅比 Claude Opus 4.6（47.9）低 2.6 分，能独立完成 8 小时长程编程任务

一句话结论：纯代码生成 Kimi K2.6 ≈ DeepSeek V4-Pro > GLM-5.1 > Doubao = Qwen3.5 > MiniMax；设计稿生成代码场景 Doubao-Seed-Code 独占鳌头。

实战层面的补充建议：很多团队踩过的一个坑是——“用旗舰模型做所有事”。其实代码场景非常适合分层处理：代码补全 / 单行修改 / 注释生成这类高频低难度任务，用 Qwen3-Coder-Next 或 DeepSeek V4-Flash 就足够，吞吐快、价格白菜；整个文件重构 / 模块设计 / 跨文件修 bug这类中等难度，用 DeepSeek V4-Pro 性价比最好；只有当任务上升到多模块协同 / 多日长程项目 / Agent 自主开发时，才需要请出 Kimi K2.6 这种"重型武器"。一个真实生产环境的代码 Agent 流量分布大概是 70% / 25% / 5%——按这个比例混合调用，月度账单能比"全用 Kimi"省下 60% 以上。

维度三：长文本处理

2026 年大模型上下文窗口的"军备竞赛"已经进入了"够用就好"的理性期。但能不能用 ≠ 用得好，"迷失在中间"问题仍然是国产模型的普遍痛点。

模型	标称窗口	实测有效窗口	NIAH（10K）	NIAH（100K）	NIAH（1M）
MiniMax-Text-01	4M	~2M	✅ 100%	✅ 99%	✅ 95%
Qwen3.5-Plus	1M	~800K	✅ 99%	✅ 96%	⚠️ 78%
DeepSeek V4-Pro	1M	~400K	✅ 98%	✅ 92%	⚠️ 65%
Doubao-Seed-2.0-pro	256K	~200K	✅ 99%	✅ 95%	N/A
Kimi K2.6	256K	~256K	✅ 99%	✅ 97%	N/A
GLM-5.1	200K	~180K	✅ 98%	✅ 93%	N/A

NIAH = Needle In A Haystack（大海捞针），数值越高表示在对应长度上能精确检索到指定信息的概率。DeepSeek V4-Pro 在超长上下文上的衰减源于 KV-cache 压缩（参考 Frank X. AI 分析）。

关键洞察：

超长文档（>500K tokens）首选 MiniMax-Text-01：4M 窗口 + Lightning Attention 让"一次塞一本《三体》全集"成为可能
百万级窗口（100K-500K）Qwen3.5-Plus 最稳：1500 页 PDF / 2 小时视频的真实场景验证良好（aihowhub 评测）
中长文（<256K）Kimi K2.6 召回最准：256K 内 NIAH 几乎不衰减，符合"Kimi 长文档"的产品基因
DeepSeek V4-Pro 慎用超长上下文：官方明确提示"重 KV-cache 压缩可能损伤精确检索"，超过 200K 建议分段处理

一个被忽略的真相——上下文窗口大不等于能处理任意复杂的长文档任务。我们在实测中发现，即使是"窗口标称 1M"的模型，一旦上下文中存在多个相互关联的关键事实（比如要求模型对比第 1 章和第 30 章的某两个细节并给出结论），准确率会从单点检索的 95%+ 暴跌到 60%-70%。这是当前所有大模型的共通短板，俗称"多跳推理在长上下文中崩塌"。因此真正的长文档场景，仍然推荐用"分块 + RAG + 摘要"的工程方法，而不是迷信"塞进窗口就完事"。长上下文模型的最佳使用场景是：一次性塞入背景资料 + 短问题，而不是"塞一本书 + 让模型像人一样阅读"。

维度四：中文理解与生成

中文是国产模型的"母语优势"。但具体到不同细分场景，差异仍然显著：

模型	C-Eval	CMMLU	SuperCLUE	C-SimpleQA	中文写作主观评分
Qwen3.5-Plus	88.5	89.2	73.1	79.4	⭐⭐⭐⭐⭐
Doubao-Seed-2.0-pro	87.8	88.4	74.5	80.2	⭐⭐⭐⭐⭐
DeepSeek V4-Pro	86.5	88.8	71.5	75.6	⭐⭐⭐⭐
GLM-5.1	88.2	87.6	70.9	77.6	⭐⭐⭐⭐
Kimi K2.6	86.5	86.2	72.4	77.0	⭐⭐⭐⭐⭐
MiniMax M2.7	84.1	85.0	69.8	74.2	⭐⭐⭐⭐

数据来源：国产大模型四小龙对比、2026 大模型终极比拼。

Qwen3.5-Plus 凭借201 种语言全覆盖和阿里通义系长期的中文数据积累，在 C-Eval / CMMLU 双榜均拿下第一；Doubao 在 SuperCLUE（更贴近实际对话场景）和 C-SimpleQA（事实型问答）拔得头筹，符合字节"短平快、贴近 C 端用户"的产品调性。

写作风格主观感受（基于实测 500+ 条 prompt）：

Doubao-Seed-2.0-pro：文风最"接地气"，公众号、小红书风格的文案最自然，最适合内容创作
Qwen3.5-Plus：偏严谨学术风，写报告、写论文最佳，最适合 B 端文档
Kimi K2.6：文风偏文学性，长篇创作（小说、剧本）有惊喜
DeepSeek V4-Pro：风格中规中矩，但逻辑严密度最高，适合写技术分析、说理文
GLM-5.1：体制内公文风格最稳，适合写公文、合同
MiniMax M2.7：通用够用，无明显短板也无明显长板

维度五：推理能力

推理能力是 2026 年的"分水岭"。所有国产旗舰都引入了思考模式（Thinking Mode）——可在 API 调用时通过 enable_thinking: true 开启慢思考，代价是响应延迟和 token 消耗显著增加。

模型	AIME 2025	MATH-500	GPQA Diamond	ARC-AGI-2	思考模式
GLM-5.1	85.2	96.3	86.0	12.8	✅ 默认开启
Kimi K2.6	82.4	95.8	75.2	14.5	✅ 可切换
DeepSeek V4-Pro	79.6	96.1	72.8	11.2	✅ 可切换
Qwen3.5-Plus	76.8	94.5	70.5	10.6	✅ 可切换（同价）
Doubao-Seed-2.0-pro	74.3	93.8	68.4	9.8	✅ 可切换
MiniMax M2.7	72.5	92.0	65.1	8.5	✅ 默认开启

数据来源：各厂商官方 Model Card 及 Seed2.0 官方 Model Card。

关键洞察：

GLM-5.1 是当前国产推理之王：GPQA Diamond 86.0 这个分数已经逼近 Claude Opus 4.6（90.x），背后是智谱在 "Z1 推理模型"上一年多的技术沉淀
Qwen3.5-Plus 思考模式不加价：和老版 qwen-plus 必须用 thinking 子模型且加价不同，3.5 系列把 thinking 做成了"免费开关"，性价比再上一台阶
Doubao 的思考模式较弱：Seed-2.0-pro 思考模式相对其他模型提升幅度有限，可能与字节优先优化"低延迟体验"的产品策略有关

关于"是否要开启思考模式"的工程经验：思考模式是把双刃剑。开启后通常能让推理任务准确率提升 5%-15%，但输出 token 数会膨胀 3-10 倍——因为模型会输出大段的"内部独白"。这意味着对一道 GPQA 题目，思考模式下的实际花销可能是非思考模式的 5 倍以上。我们的建议是：对有明确正误答案的客观推理题（数学、物理、代码 debug），开启思考模式是值得的；对开放式对话、内容创作、客服问答等场景，思考模式不仅浪费成本，还会让响应变慢、变啰嗦，反而损伤用户体验。最优解是给应用做一个"难度路由"——简单问题走快通道，难题再走思考模式，把成本和效果的平衡点踩准。

维度六：性价比

这是国产模型最有底气的维度。我们用一个标准化场景做横评——月调用 1000 万 tokens（输入 666 万、输出 334 万，输入:输出 = 2:1）：

def calculate_monthly_cost(
    input_tokens: int,
    output_tokens: int,
    input_price: float,   # 元/百万 token
    output_price: float
) -> float:
    """计算月度成本（人民币）"""
    return (input_tokens / 1_000_000) * input_price + \
           (output_tokens / 1_000_000) * output_price

# 1000 万 tokens 月度成本（按官方挂牌价、不含缓存优惠）
MONTHLY_COST_CNY = {
    "MiniMax M2.7":          calculate_monthly_cost(6.66e6, 3.34e6, 2.1,  8.4),    # ≈ ¥42
    "Qwen3.5-Plus":          calculate_monthly_cost(6.66e6, 3.34e6, 0.8,  8.0),    # ≈ ¥32
    "Doubao-Seed-2.0-pro":   calculate_monthly_cost(6.66e6, 3.34e6, 3.41, 17.04),  # ≈ ¥80
    "GLM-5.1":               calculate_monthly_cost(6.66e6, 3.34e6, 6.0,  24.0),   # ≈ ¥120
    "Kimi K2.6":             calculate_monthly_cost(6.66e6, 3.34e6, 6.8,  28.0),   # ≈ ¥139
    "DeepSeek V4-Pro":       calculate_monthly_cost(6.66e6, 3.34e6, 12.0, 24.0),   # ≈ ¥160
    # 对照组：海外旗舰
    "GPT-5.5":               calculate_monthly_cost(6.66e6, 3.34e6, 36.0, 216.0),  # ≈ ¥962
    "Claude Opus 4.7":       calculate_monthly_cost(6.66e6, 3.34e6, 36.0, 180.0),  # ≈ ¥841
}

# 性价比综合指数 = AAI 智能指数 / (月度成本的平方根)
def value_score(intelligence: int, cost: float) -> float:
    return intelligence / (cost ** 0.5)

VALUE_RANKING = {
    "Qwen3.5-Plus":         value_score(48, 32),   # 8.49  ⭐⭐⭐⭐⭐
    "MiniMax M2.7":         value_score(50, 42),   # 7.72  ⭐⭐⭐⭐⭐
    "Doubao-Seed-2.0-pro":  value_score(46, 80),   # 5.14  ⭐⭐⭐⭐
    "GLM-5.1":              value_score(49, 120),  # 4.47  ⭐⭐⭐⭐
    "Kimi K2.6":            value_score(54, 139),  # 4.58  ⭐⭐⭐⭐
    "DeepSeek V4-Pro":      value_score(52, 160),  # 4.11  ⭐⭐⭐⭐
    # 海外对照
    "GPT-5.5":              value_score(60, 962),  # 1.94  💸
    "Claude Opus 4.7":      value_score(62, 841),  # 2.14  💸
}

结论清晰：

Qwen3.5-Plus 是 2026 年中性价比之王：综合智能不弱、价格只有 GPT-5.5 的 1/30
MiniMax M2.7 是第二选：4M 上下文 + 综合智能 50，跑长文档场景几乎无敌
DeepSeek V4-Pro 别只看挂牌价：实测中缓存命中率超 80% 的场景（如 RAG、Agent 重复查询），实际成本会被腰斩到 ¥80 以下
Kimi K2.6 价格不便宜，但综合智能 54 拉满：算上"代码王者"溢价，对Agent 编程项目完全值

关于"挂牌价"和"实际成本"的真实差距：上面这套对比用的是各家的官方挂牌价，但真实生产环境的成本可能差异很大。三个最容易被忽略的优化点——一是缓存命中，DeepSeek V4 缓存命中后输入只要 ¥1/M（原价 ¥12/M），Qwen / Doubao / Kimi 也都有类似的隐式缓存机制，命中率高的 RAG 场景可以省下 70%+；二是批处理折扣，Qwen3.5 系列的 Batch API 直接打五折，跑离线任务（数据清洗、批量翻译、文档摘要）省一半；三是思考模式带来的隐藏成本，前面提过，思考模式会让 token 消耗膨胀 3-10 倍，挂牌价同样的两个模型，开思考模式的那个实际花销可能是 5 倍。所以真要算清账，必须按自己的真实流量画像跑一遍模拟，而不是看挂牌单价拍脑袋。

维度七：响应速度

速度是 Agent 时代的关键指标。我们汇总了 2026 年 5 月独立机构对各家模型的吞吐压测数据：

模型	TTFT（首字延迟）	输出吞吐	适用场景
Qwen3-Coder-Next（Qwen3.5 子模型）	4.1s	128.7 tok/s	🥇 代码补全、Agent
DeepSeek V4-Pro	0.67s	42.2 tok/s	实时对话首选
Doubao-Seed-2.0-pro	0.9s	65 tok/s	国内网络最稳
GLM-5.1	1.2s	38 tok/s	推理任务无压力
Qwen3.5-Plus	1.5s	55 tok/s	通用够用
Kimi K2.6	2.9s	23 tok/s	慢但准
MiniMax M2.7	3.5s	32 tok/s	长上下文优先

数据来源：掘金 - 40 个国产 AI Coding 模型推理速度、5 月开源模型 Token 服务性能榜。注意：同一模型不同渠道速度可能差 2.5 倍，上述为各家"最快渠道"的数据。

DeepSeek V4-Pro 首字延迟突破 0.67s 大关，输出稳定且无明显抖动，实时对话场景最优
Qwen3-Coder-Next（Qwen3.5 系列的代码子模型）输出吞吐冲到 128.7 tok/s，Agent 自动化编程提速 3 倍
Kimi K2.6 / MiniMax M2.7 速度偏慢，但这是"思考模式默认开启"+"长程任务"的设计取舍

代码示例：用 OpenAI 兼容协议同时调用六款国产模型

好消息：六款国产旗舰全部已原生支持 OpenAI 兼容协议——只需要切换 base_url 和 api_key，几乎不用改业务代码。这背后其实是一个非常重要的产业级共识：OpenAI 的 Chat Completions 协议已经成为大模型 API 的事实标准，无论国内厂商在自家 SDK 上做多少花样，最终都会回归到这个最大公约数上。这对开发者意味着真正的"无锁定"切换自由——业务代码只要遵循 OpenAI 协议写一次，后端模型就可以根据成本、质量、可用性随时替换。

下面三段示例分别覆盖：基础同步调用、并行横评测速、按场景智能路由——这是任何想认真用国产模型做生产应用的团队都绕不开的三件套。

示例 1：基础调用

from openai import OpenAI

# 各家模型的 base_url 配置（2026 年 6 月）
PROVIDERS = {
    "qwen3.5-plus": {
        "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
        "api_key": "sk-xxx",  # 阿里云百炼 DashScope Key
        "model": "qwen3.5-plus",
    },
    "deepseek-v4-pro": {
        "base_url": "https://api.deepseek.com/v1",
        "api_key": "sk-xxx",  # DeepSeek 官方 Key
        "model": "deepseek-v4-pro",
    },
    "doubao-seed-2.0-pro": {
        "base_url": "https://ark.cn-beijing.volces.com/api/v3",
        "api_key": "xxx",  # 火山方舟 Key
        "model": "doubao-seed-2-0-pro-241215",
    },
    "kimi-k2.6": {
        "base_url": "https://api.moonshot.cn/v1",
        "api_key": "sk-xxx",  # Moonshot 官方 Key
        "model": "kimi-k2.6",
    },
    "glm-5.1": {
        "base_url": "https://open.bigmodel.cn/api/paas/v4",
        "api_key": "xxx",  # 智谱开放平台 Key
        "model": "glm-5.1",
    },
    "minimax-m2.7": {
        "base_url": "https://api.minimax.chat/v1",
        "api_key": "xxx",  # MiniMax 官方 Key
        "model": "MiniMax-M2.7",
    },
}


def chat(provider_name: str, prompt: str, enable_thinking: bool = False) -> str:
    """统一调用接口（OpenAI 兼容协议）"""
    cfg = PROVIDERS[provider_name]
    client = OpenAI(api_key=cfg["api_key"], base_url=cfg["base_url"])
    
    # extra_body 用于传递非标准参数（如思考模式开关）
    extra_body = {}
    if enable_thinking:
        extra_body["enable_thinking"] = True
    
    response = client.chat.completions.create(
        model=cfg["model"],
        messages=[{"role": "user", "content": prompt}],
        extra_body=extra_body,
    )
    return response.choices[0].message.content


# 用法示例
result = chat("deepseek-v4-pro", "用 Python 实现快速排序")
print(result)

关键提示：

所有 base_url 必须带 /v1 或 /api/v3 等版本路径，否则会 404
model 字段是各家自定义的 ID，不是统一名称，建议用枚举集中管理
思考模式开关：Qwen / DeepSeek / Kimi 都通过 extra_body.enable_thinking 透传，但具体字段名各家略有差异，需要查官方文档

示例 2：六模型并行横评脚本

import asyncio
from openai import AsyncOpenAI
from typing import Dict, List

async def call_model(provider_name: str, prompt: str) -> Dict:
    """异步调用单个模型"""
    cfg = PROVIDERS[provider_name]
    client = AsyncOpenAI(api_key=cfg["api_key"], base_url=cfg["base_url"])
    
    import time
    start = time.time()
    try:
        resp = await client.chat.completions.create(
            model=cfg["model"],
            messages=[{"role": "user", "content": prompt}],
            timeout=60,
        )
        return {
            "provider": provider_name,
            "content": resp.choices[0].message.content,
            "latency_ms": int((time.time() - start) * 1000),
            "input_tokens": resp.usage.prompt_tokens,
            "output_tokens": resp.usage.completion_tokens,
            "status": "success",
        }
    except Exception as e:
        return {
            "provider": provider_name,
            "status": "error",
            "error": str(e),
            "latency_ms": int((time.time() - start) * 1000),
        }


async def benchmark(prompt: str) -> List[Dict]:
    """并发调用六款模型，返回横评结果"""
    tasks = [call_model(name, prompt) for name in PROVIDERS.keys()]
    return await asyncio.gather(*tasks)


# 用法示例
async def main():
    test_prompt = "解释一下 MoE 架构的核心优势，并对比 Dense 模型给出 3 个具体场景"
    results = await benchmark(test_prompt)
    
    # 按延迟排序输出
    results.sort(key=lambda r: r.get("latency_ms", 99999))
    for r in results:
        status = "✅" if r["status"] == "success" else "❌"
        print(f"{status} {r['provider']:25s} | {r['latency_ms']:5d}ms")
        if r["status"] == "success":
            print(f"   tokens: in={r['input_tokens']}, out={r['output_tokens']}")
            print(f"   摘要: {r['content'][:80]}...")
        print()

# asyncio.run(main())

示例 3：按场景自动路由的"国产模型选择器"

from dataclasses import dataclass
from enum import Enum

class Scenario(Enum):
    CODE = "code"                  # 代码生成
    LONG_DOC = "long_doc"          # 长文档分析
    CHINESE_WRITING = "writing"    # 中文写作
    REASONING = "reasoning"        # 复杂推理
    REALTIME_CHAT = "chat"         # 实时对话
    COST_SENSITIVE = "cost"        # 极致省钱
    MULTIMODAL = "multimodal"      # 多模态理解

# 场景 → 最优模型映射（基于本文横评结论）
SCENARIO_ROUTER = {
    Scenario.CODE:            ["kimi-k2.6", "deepseek-v4-pro"],         # 代码王者
    Scenario.LONG_DOC:        ["qwen3.5-plus", "minimax-m2.7"],         # 1M+ 上下文
    Scenario.CHINESE_WRITING: ["doubao-seed-2.0-pro", "qwen3.5-plus"],  # 中文最自然
    Scenario.REASONING:       ["glm-5.1", "kimi-k2.6"],                 # GPQA 强项
    Scenario.REALTIME_CHAT:   ["deepseek-v4-pro", "doubao-seed-2.0-pro"], # 低延迟
    Scenario.COST_SENSITIVE:  ["qwen3.5-plus", "minimax-m2.7"],         # 性价比
    Scenario.MULTIMODAL:      ["doubao-seed-2.0-pro", "qwen3.5-plus"],  # 视觉强
}


def smart_route(prompt: str, scenario: Scenario, fallback: bool = True) -> str:
    """
    场景化智能路由
    
    Args:
        prompt: 用户输入
        scenario: 使用场景
        fallback: 主模型失败时是否切换到备选
    """
    candidates = SCENARIO_ROUTER[scenario]
    
    for model_name in candidates:
        try:
            return chat(model_name, prompt)
        except Exception as e:
            if not fallback:
                raise
            print(f"[路由] {model_name} 失败，切换备选: {e}")
            continue
    
    raise RuntimeError(f"场景 {scenario} 所有模型均失败")


# 用法示例
code = smart_route(
    "重构这段 Python 代码使其支持异步...",
    scenario=Scenario.CODE
)

这套路由器的核心思想是：让"场景"成为路由决策的一等公民，而不是死磕单一模型。生产环境进一步扩展时，可以加上成本预算、QPS 限流、Token 计量等中间件，参考 LLM 多模型路由架构设计中介绍的均衡策略实现。

综合决策：谁是真王者？

横评走完七大维度后，"谁是真王者"这个问题已经没有单一答案了——但有清晰的场景化答案。

场景化推荐矩阵

场景	首选	备选	理由
代码生成 / Agent 编程	🥇 Kimi K2.6	DeepSeek V4-Pro	SWE-Bench Pro 开源第一，长程编码 13h
设计稿 → 代码	🥇 Doubao-Seed-2.0-pro	—	国内唯一原生 VLM 编程模型
长文档摘要（>500K tokens）	🥇 MiniMax-Text-01	Qwen3.5-Plus	4M 上下文，NIAH 100%
中文 PDF 分析（<1M tokens）	🥇 Qwen3.5-Plus	Kimi K2.6	1500 页 PDF 实测稳定
中文内容创作 / 营销文案	🥇 Doubao-Seed-2.0-pro	Qwen3.5-Plus	文风最接地气
中文公文 / 合同 / 报告	🥇 GLM-5.1	Qwen3.5-Plus	文风严谨，结构清晰
数学 / 物理博士级推理	🥇 GLM-5.1	Kimi K2.6	GPQA Diamond 86.0
实时对话 / 低延迟场景	🥇 DeepSeek V4-Pro	Doubao-Seed-2.0-pro	TTFT 0.67s
极致性价比 / 大规模批处理	🥇 Qwen3.5-Plus	MiniMax M2.7	¥32/月跑千万 tokens
企业级综合 Agent 系统	🥇 Kimi K2.6 + Qwen3.5-Plus 组合	+ DeepSeek V4-Pro	主模型 + 备份 + 廉价兜底

决策树：30 秒选出最适合你的国产模型

开始
  │
  ├─ 是否需要处理 >500K tokens 的超长文档？
  │     ├─ Yes → MiniMax-Text-01（4M）或 Qwen3.5-Plus（1M）
  │     └─ No  → 继续 ↓
  │
  ├─ 是否做代码生成 / Agent 编程？
  │     ├─ Yes → 预算够：Kimi K2.6
  │     │        预算紧：DeepSeek V4-Pro
  │     │        要看设计稿：Doubao-Seed-Code
  │     └─ No  → 继续 ↓
  │
  ├─ 是否需要复杂推理（数学/物理/科学）？
  │     ├─ Yes → GLM-5.1（GPQA Diamond 国产第一）
  │     └─ No  → 继续 ↓
  │
  ├─ 主要做中文内容创作？
  │     ├─ 营销/社交 → Doubao-Seed-2.0-pro
  │     ├─ 文学/小说 → Kimi K2.6
  │     ├─ 公文/合同 → GLM-5.1
  │     └─ 学术/报告 → Qwen3.5-Plus
  │
  └─ 都不是、追求性价比？
        └─ Qwen3.5-Plus（默认首选）
           或 MiniMax M2.7（需要更长上下文时）

2026 年中国产大模型"王者榜"

🏆 综合王者：Kimi K2.6
   └─ 开源 SWE-Bench Pro 第一，逼近 GPT-5.5 / Claude Opus

🥈 性价比王者：Qwen3.5-Plus
   └─ ¥0.8/M 输入 + 1M 上下文 + 多模态，无可争议的"日用首选"

🥉 推理王者：GLM-5.1
   └─ GPQA Diamond 86.0，国产推理天花板

📦 代码新贵：DeepSeek V4-Pro
   └─ SWE-Bench 80.6% + 缓存优化后实际成本可压到极低

🎨 多模态特长生：Doubao-Seed-2.0-pro
   └─ 国内唯一原生 VLM 编程，设计稿 → 代码无人能敌

🔭 长程探索者：MiniMax M2.7 / Text-01
   └─ 4M 上下文 + Lightning Attention，超长文档绝对王者

所以"谁是真王者"——

如果只允许选一个答案，2026 年中是 Kimi K2.6（综合智能 + 代码 SOTA + 开源生态）；
如果允许两个，加上 Qwen3.5-Plus（性价比 + 长上下文兜底）；
如果允许三个，再加 GLM-5.1（推理 + 中文公文专精）。

真实业务建议组合使用：用 Qwen3.5-Plus 做高频低难度任务（90% 流量、10% 成本），用 Kimi K2.6 或 DeepSeek V4-Pro 做高难度任务兜底（10% 流量、占 60% 成本），用 Doubao 处理多模态、用 GLM 处理推理——这才是 2026 年国产模型时代的"正确打开方式"。