1. 引言与模型概述

1.1 模型背景与定位

Qwen3.5-397B-A17B是阿里巴巴通义千问团队于2026年2月16日(农历除夕)正式发布并开源的新一代超大规模稀疏混合专家(MoE)视觉-语言模型,同时也是Qwen3.5系列的首款旗舰模型。作为该系列的开篇之作,它标志着通义千问在大模型技术演进上的关键跨越——从单纯的参数规模竞赛,转向了兼顾极致性能与落地可行性的能效优化赛道。
从命名规则的细节,即可清晰解读其核心设计逻辑:

  • 397B:代表模型的总参数量规模,达到3970亿级别,属于当前开源模型中参数体量的第一梯队;
  • A17B:其中“A”是“Active(激活)”的缩写,意味着每处理一个输入Token时,仅会动态激活约170亿参数参与计算;
  • Qwen3.5系列:相较于前代,该系列实现了从“文本优先、视觉可选”到“原生多模态融合”的架构范式升级——视觉与语言模块在底层共享注意力机制与专家层,而非简单的“文本模型外挂视觉编码器”拼接方案,这也是其命名中未沿用传统“VL(视觉-语言)”后缀的核心原因。
    根据官方定义,该模型的核心定位是「为Agentic AI时代而生的开源视觉-语言基础模型」:其设计目标并非仅作为单一任务的推理工具,而是要成为能支撑复杂智能体系统的基座——具备原生理解文本、图像、视频多模态信息的能力,可直接对接工具调用、长周期任务规划、人机交互界面(GUI)操作等Agentic场景需求。
    为了让开发者和企业用户快速验证其能力,该模型采用完全宽松的Apache 2.0开源协议,不仅开放了全系列模型权重,还同步提供了推理代码、训练框架、多模态工具链及API适配文档,支持免费商用、二次开发与修改分发,大幅降低了产业级应用的门槛。
    【OpenAI】获取OpenAI API Key的多种方式全攻略:从入门到精通,再到详解教程!

1.2 核心优势概览

Qwen3.5-397B-A17B的核心优势,本质是架构创新与工程优化的深度协同——并非依赖单一技术突破,而是通过多维度创新的组合,突破了大模型“性能-成本-规模”的不可能三角。其关键优势可概括为以下四点:

  1. 前所未有的推理效率:尽管总参数量高达397B,但通过极致稀疏的MoE架构设计,每Token仅激活约4%的参数(17B),结合混合注意力机制与FP8精度优化,其推理吞吐量较上一代万亿参数模型Qwen3-Max-Thinking提升了8.6~19倍——在32K上下文长度下为8.6倍,256K超长上下文下可达19倍——同时部署显存占用降低了60%,单轮推理成本也同步下降60%。这一突破直接解决了超大规模模型“参数越多、推理越慢、成本越高”的行业痛点。
  2. 原生多模态理解能力:采用“早期文本-视觉融合”的原生设计,视觉编码器与语言模型在训练阶段即共享底层语义空间,而非后期拼接。这一设计使其能原生支持文本、图像、视频的统一处理,甚至可直接理解图文混排的PDF文档、GUI界面元素等复杂多模态输入,无需额外的多模态RAG流程辅助。
  3. 强化学习驱动的智能体能力:构建了可扩展的异步强化学习(RL)框架,通过“训推分离”的架构设计,支持百万级规模的智能体环境交互——每个智能体可独立完成工具调用、任务拆解等操作,框架通过动态负载均衡、细粒度故障恢复等技术,将端到端训练速度提升了3~5倍,最终赋予模型极强的长周期任务规划与工具使用能力。
  4. 全球化与长上下文支持:将语言覆盖范围从Qwen3系列的119种扩展至201种语言与方言,针对低资源语言也做了专项优化;同时支持256K Token的超长上下文窗口,结合KV Cache量化与前缀缓存技术,在长文档总结、多轮对话等场景的性能衰减幅度较前代模型降低了30%以上。

2. 技术架构深度解析

2.1 总体架构设计:混合专家与注意力机制的协同

Qwen3.5-397B-A17B的总体架构,是稀疏MoE与混合注意力机制的深度耦合——这种设计既兼顾了超大规模模型的知识容量,又解决了传统稠密模型的推理效率瓶颈。

2.1.1 混合专家(MoE)层设计

该模型的MoE架构是其实现“大参数、高效率”平衡的核心,具体配置经过了多轮工程验证:

  • 专家配置:模型共包含512个独立的前馈神经网络(FFN)专家,这一数量远高于前代Qwen3系列的128个专家,能更精细地拆分不同任务的计算负载;
  • 激活策略:默认采用“10个路由专家+1个共享专家”的激活机制——每处理一个输入Token时,路由器会先计算Token与各专家的匹配度,选择10个最相关的专家参与计算,同时固定激活1个共享专家。共享专家的核心作用是兜底处理低频率Token或边缘场景的计算需求,避免因路由器分配偏差导致的性能波动,这一设计也有效提升了模型的训练稳定性与泛化能力;
  • 参数复用逻辑:总参数量397B的模型,通过MoE的稀疏激活机制,将实际参与计算的参数控制在17B——这一规模与当前主流的商用小模型相当,但由于总参数池的知识覆盖更全面,其实际性能可对标甚至超越万亿参数级别的稠密模型。
2.1.2 混合注意力机制

为了同时满足长上下文处理与计算效率的需求,该模型采用了Gated DeltaNet(线性注意力)+ Gated Attention(全注意力) 的混合架构,其具体设计是对Transformer架构的关键革新:

  • 架构比例:模型共包含60层Transformer块,分为15个循环单元,每个单元由3层Gated DeltaNet与1层Gated Attention组成——两者的比例为3:1。这一比例是在“长上下文效率”与“复杂推理精度”之间的最优平衡:Gated DeltaNet负责大部分长序列的高效处理,Gated Attention则在关键层提供精确的注意力计算。
  • Gated DeltaNet:这是结合了Mamba2的门控衰减机制与Delta Rule隐状态更新策略的线性注意力变体。与传统全注意力的二次复杂度(O(n²),n为序列长度)不同,Gated DeltaNet的计算复杂度仅为O(n),能更高效地处理长序列输入;同时通过门控机制动态调整隐状态的更新幅度,避免了线性注意力常见的精度损失问题。
  • Gated Attention:采用标准的全Softmax注意力机制,但加入了可学习的门控参数——门控参数会根据输入Token的重要性,动态调整注意力权重的分配强度。在处理数学推理、逻辑推导等需要精确上下文关联的任务时,该层能显著提升模型的推理精度,弥补线性注意力在复杂任务上的不足。
    这种混合注意力的设计,让模型在长上下文场景的计算效率提升了4倍以上,同时在MMLU、GSM8K等基准测试中的精度损失控制在2%以内,实现了效率与精度的平衡。

2.2 核心架构组件详解

除了基础的MoE与注意力层,Qwen3.5-397B-A17B还包含多个核心组件,共同支撑其多模态、长上下文、高稳定性的能力。

2.2.1 视觉编码器:原生多模态融合的基础

作为原生视觉-语言模型,该模型的视觉编码器并非独立模块,而是与语言模型深度耦合的核心组件:

  • 架构选型:采用改进版的DeepStack Vision Transformer架构——与传统ViT仅提取顶层特征不同,该编码器会在第8、16、24层分别提取多尺度视觉特征,既保留了图像的细粒度纹理信息(如文字边缘、图标细节),又能捕捉高层语义信息(如图像的整体内容主题);
  • 融合机制:视觉特征提取完成后,会被编码为与文本Token维度一致的视觉Token序列,与文本Token序列拼接后,共同输入至后续的Transformer层进行联合处理。这一“早期融合”的设计,让视觉与语言信息在底层语义空间即可实现深度交互,而非简单的特征叠加,这也是其多模态任务性能远超“拼接式”模型的核心原因。
2.2.2 上下文窗口与KV Cache优化

针对长上下文处理的痛点,该模型在上下文窗口管理与KV Cache优化上做了多层级的设计:

  • 上下文窗口基础:原生支持256K Token的上下文长度,较Qwen3系列的128K实现了翻倍,能覆盖大部分企业级长文档处理、多轮对话的需求;
  • 动态Prefix Cache(前缀缓存) :这是专门针对长序列输入的优化策略——模型会识别输入序列中的重复前缀(如多轮对话中的系统提示词、长文档的固定格式头部),将其缓存至独立的内存池,后续处理相同前缀时无需重复计算,直接复用缓存结果。实测显示,该策略可将长文档场景的首Token生成延迟降低约40%;
  • FP8 KV Cache量化:在推理阶段,将KV Cache的存储精度从传统的BF16降至FP8 E4M3格式,这一优化可将KV Cache的内存占用降低约50%,同时对推理精度的影响小于1%;
  • 异构内存池管理:通过在vLLM、SGLang等推理框架中构建多个独立的内存池实例,实现CPU、GPU显存的灵活调度——系统会根据当前推理负载,动态调整各内存池的分配比例,将KV Cache的内存使用效率提升至90%以上,避免了传统静态分配导致的资源浪费。
2.2.3 推理优化技术

为了进一步提升推理效率与稳定性,该模型还集成了多种行业前沿的推理优化技术:

  • 多Token预测(MTP) :这一模块挂载于模型主干网络的尾部,会在主干网络输出最后一个隐状态后,基于该状态一次性预测多个后续Token(默认预测3个)。实测显示,该技术可将单轮推理的Token生成延迟降低约20%,尤其在低并发场景下,能显著提升用户的交互体验;
  • 投机采样(Speculative Sampling) :通过一个轻量级的“草稿模型”快速生成候选Token序列,再由主模型进行验证,将验证通过的候选Token批量输出。这一策略可将端到端推理速度提升约30%,同时不会影响输出质量;
  • Logits Warmer启动策略:在模型启动初期,会逐步提升模型的输出Logits温度,避免因模型参数未完全稳定导致的输出波动。实测显示,该策略可将模型启动初期的错误率降低约25%,提升了大规模并发推理时的稳定性。

2.3 训练与基础设施

该模型的高性能,不仅依赖于算法层面的架构创新,更离不开底层训练基础设施的全栈协同优化——正是这种“算法-硬件”的深度协同,支撑了397B参数模型的稳定训练与高效推理。

2.3.1 FP8混合精度训练

这是模型能实现超大规模训练的关键技术之一,其核心是在保证训练精度的前提下,最大化降低内存占用与计算开销:

  • 精度分层策略:在训练阶段,将激活值、MoE路由计算、矩阵乘法(GEMM)等计算密集型操作的精度降至FP8,以减少内存占用与计算开销;而对梯度、权重等对精度更敏感的部分,则保留BF16精度,避免训练过程中的精度漂移;
  • Runtime Monitoring机制:系统会实时监控各层的训练损失与梯度变化,当某层的精度误差超过阈值时,会自动将该层的计算精度切回BF16。这一动态调整机制,既保证了训练的稳定性,又实现了内存的高效利用——最终实现了约50%的激活内存占用降低,以及超过10%的训练速度提升。
2.3.2 可扩展异步强化学习框架

为了支撑智能体能力的规模化训练,该模型采用了“训推分离”的异步RL框架,其核心设计是解耦训练与推理的资源,实现大规模智能体环境的高效交互:

  • 架构设计:将训练集群与推理集群完全分离,推理集群负责与百万级智能体环境进行实时交互,生成高质量的交互数据;训练集群则异步接收这些数据,进行模型参数更新。这种设计避免了传统“训推一体”架构中,推理任务对训练资源的抢占,硬件利用率从传统架构的约40%提升至85%以上;
  • 核心优化技术
    • Rollout Router Replay:记录智能体交互过程中的路由器分配策略,在训练阶段进行重放,让模型学习更优的专家路由逻辑,提升MoE的计算效率;
    • 多轮Rollout Locking:在多轮对话场景中,锁定前序轮次的Rollout状态,避免重复计算,提升训练效率;
    • 动态负载均衡:根据各训练节点的计算负载,动态分配训练任务,避免节点过载或闲置;
    • 细粒度故障恢复:当某一训练节点出现故障时,仅需恢复该节点的当前任务,无需重启整个训练集群,大幅降低了训练中断的影响。
      这些优化的综合效果,使端到端训练速度提升了3~5倍,能稳定支撑百万级智能体环境的规模化训练。
2.3.3 异构基础设施协同

针对超大规模模型的训练与推理需求,该模型采用了异构基础设施的协同设计,充分发挥不同硬件的优势:

  • 视觉-语言解耦并行:将视觉编码器与语言模型的并行策略分离——视觉编码器采用数据并行(DP),语言模型采用张量并行(TP)+流水线并行(PP)的混合并行策略。这种设计避免了传统统一并行策略在多模态任务上的效率瓶颈,在混合文本-图像-视频数据的训练场景中,吞吐量接近纯文本训练的基线(约98%);
  • 昇腾/英伟达GPU适配:针对主流的AI加速芯片(如英伟达A100/H100、昇腾Atlas 800 A2)做了专项算子优化——例如,针对昇腾芯片的NPU架构,优化了MoE路由算子与注意力算子的计算逻辑;针对英伟达芯片,优化了FP8精度下的矩阵乘法算子。实测显示,这些优化可将昇腾芯片上的推理吞吐量提升约25%,英伟达芯片上的训练速度提升约15%。

3. 性能表现深度评测

3.1 基准测试结果

Qwen3.5-397B-A17B在主流NLP、多模态与智能体基准测试中,均取得了顶尖的性能表现,尤其在多模态与智能体任务上,实现了对同类开源模型的显著领先。

3.1.1 学术基准测试

以下为模型在核心学术基准上的测试结果(数据来源于官方技术报告及第三方权威评测):

基准测试类型 数据集 模型得分 同梯队模型对比
知识推理 MMLU 88.61% 高于GLM-4.5-355B(86.56%)、DeepSeek-V3.2-671B(88.11%)
知识推理 MMLU-Pro 87.8% 与GPT-5.2(87.4%)相当,高于Claude 4.5 Opus(85.7%)
知识推理 MMLU-Redux 89.09% 高于Qwen3-235B-A22B(87.44%)、K2-1T-A32B(86.65%)
知识推理 SuperGPQA 57.96% 高于K2-1T-A32B(44.86%)、Qwen3-235B-A22B(42.84%)
知识推理 MMMLU 85.82% 高于GLM-4.5-355B(82.26%)、K2-1T-A32B(82.26%)
数学推理 GSM8K 93.71% 高于Qwen3-235B-A22B(91.17%)、Claude 4.5 Opus(89.31%)
数学推理 MATH 74.14% 高于Qwen3-235B-A22B(71.84%)、GLM-4.5-355B(61.84%)
数学推理 KoRBench 54.08% 与K2-1T-A32B(53.84%)相当,高于Qwen3-235B-A22B(50.80%)
代码生成 HumanEval 89.3% 全系列最强,高于Qwen3.5-27B(89.1%)
代码生成 Evalplus 79.32% 高于Qwen3-235B-A22B(77.60%)、K2-1T-A32B(71.77%)
代码生成 MultiPLE 79.39% 高于K2-1T-A32B(70.64%)、Qwen3-235B-A22B(65.94%)
代码生成 SWE-agentless 43.26% 高于DeepSeek-V3.2-671B(34.67%)、Qwen3-235B-A22B(31.77%)
多模态理解 MMBench_EN-DEV-v1.1 93.7% 与Gemini-3 Pro(93.7%)相当,高于K2.5-1T-A32B(94.2%,仅低0.5个百分点)
多模态理解 EmbSpatialBench 84.5% 与Qwen3-VL-235B-A22B(84.3%)相当,高于GPT-5.2(81.3%)
多模态理解 OCRBench 93.1% 高于K2.5-1T-A32B(92.3%)、Gemini-3 Pro(90.4%)
多模态理解 CountBench 97.2% 与Gemini-3 Pro(97.3%)相当,高于Claude 4.5 Opus(90.6%)
智能体能力 BBH 90.98% 高于K2-1T-A32B(89.11%)、Qwen3-235B-A22B(87.95%)
智能体能力 Tool Decathlon 38.3% 高于K2.5-1T-A32B(27.8%)、Qwen3-Max-Thinking(18.8%)
智能体能力 BrowseComp 78.6% 高于GPT-5.2(65.8%)、Claude 4.5 Opus(67.8%)
智能体能力 SWE-bench Verified 76.4% 与GPT-5.2(80.0%)接近,高于Claude 4.5 Opus(80.9%,仅低0.5个百分点)
从测试结果可以看出,该模型在知识推理、数学推理、代码生成、多模态理解与智能体能力等维度,均实现了对同参数量级模型的领先,部分任务甚至超过了万亿参数级别的闭源模型。
3.1.2 关键任务性能分析

针对核心NLP与多模态任务,其具体表现可细化为以下维度:

  • 文本生成:在MMLU-Pro知识推理评测中获得87.8分,与GPT-5.2相当;在长文档总结任务中,对128K Token的技术白皮书总结准确率达到92%,关键信息遗漏率较前代模型降低了40%。第三方实测显示,其生成的学术论文摘要、营销文案、技术文档等内容,逻辑严谨性与格式规范性均达到“可直接商用”的水平,尤其在因果关系分析场景,几乎不会出现“因果倒置”或“逻辑断裂”的问题。
  • 问答任务:在RealWorldQA(真实世界场景问答)基准中取得83.9%的准确率,仅次于GPT-5.2(83.3%)位居第二。在多轮对话场景中,即使上下文长度达到200K Token,其答案准确率仍能维持在85%以上,远高于同类型模型的60%平均水平。
  • 翻译任务:支持201种语言的互译,在WMT24++多语言翻译基准中,中文-英文方向的BLEU值达到48.2,较Qwen3系列提升了15%;中文-日文、中文-阿拉伯语等低资源语言方向的BLEU值也分别提升了12%和18%。
  • 代码生成:HumanEval得分89.3%,SWE-agentless得分43.26%,尤其在复杂代码逻辑生成(如分布式系统架构、机器学习模型实现)场景,其首次通过测试的比例(Pass@1)达到68%,较前代模型提升了25%。
  • 多模态任务:在MMBench_EN-DEV-v1.1、OCRBench、CountBench等多模态基准中,均达到或超过GPT-5.2、Gemini-3 Pro等闭源模型的水平。其中,在GUI界面元素识别任务中,其准确率达到94%,能直接支撑智能体对电脑或手机界面的操作需求。

3.2 推理性能与效率

该模型的推理性能优势,不仅体现在基准测试的得分上,更体现在实际部署中的速度、显存占用与并发能力——这些指标直接决定了模型的产业落地价值。

3.2.1 生成速度与吞吐量

以下为模型在不同硬件环境下的推理速度与吞吐量数据(数据来源于官方测试及第三方实测):

硬件环境 量化精度 上下文长度 生成速度 吞吐量
NVIDIA RTX 5090 FP16 32K Token 20 tokens/s -
NVIDIA RTX 5090 FP16 128K Token 17.87±0.33 tokens/s -
NVIDIA RTX 5090 FP16 200K Token 16.97±0.16 tokens/s -
NVIDIA A100 80GB ×8 FP8 32K Token - 8.6×Qwen3-Max
NVIDIA A100 80GB ×8 FP8 256K Token - 19.0×Qwen3-Max
Apple M1 Ultra Q4_K_M 256K Token ~20 tokens/s -
浪潮NF5488A5(8×A100 80GB) FP8 32K Token - 支持50+并发请求
从数据可以看出,该模型的推理效率优势在长上下文场景中尤为明显——256K Token上下文下的吞吐量较Qwen3-Max提升了19倍,即使在消费级硬件(如Apple M1 Ultra)上,也能实现20 tokens/s左右的生成速度。
3.2.2 显存占用与稳定性

模型的显存占用经过了多维度优化,同时具备极强的并发稳定性:

  • 显存占用:在4bit量化精度下,模型的显存占用约为8.5GB,单张NVIDIA A100 80GB显卡即可运行;在FP8精度下,显存占用约为17GB,8×A100 80GB集群可稳定支撑256K上下文长度的推理需求。
  • 稳定性:在浪潮NF5488A5服务器(8×A100 80GB)上,采用SGLang推理框架,可稳定支持50+并发请求,99分位延迟控制在100ms以内;连续运行72小时后,模型输出准确率无明显衰减,内存泄漏率控制在0.01%以内。

4. A17B芯片硬件协同优化(注:原命名中“A17B”为激活参数标识,非芯片型号)

需要特别说明的是,模型命名中的“A17B”并非指特定芯片型号,而是“Active 17B”的缩写,代表每Token激活的参数规模。不过,该模型针对当前主流的AI加速芯片(如英伟达A100/H100、昇腾Atlas 800 A2)做了深度硬件协同优化,充分发挥了硬件的计算潜力。

4.1 硬件架构对齐

为了适配不同芯片的架构特性,模型在算子层面做了针对性设计:

  • 算子融合:将多个连续的算子(如卷积、激活、归一化)融合为一个复合算子,减少了数据在内存与计算单元之间的传输次数。例如,在昇腾Atlas 800 A2芯片上,MoE路由算子与GEMM算子的融合,可将计算效率提升约30%;
  • 数据布局优化:根据不同芯片的内存访问特性(如英伟达的Tensor Core偏好16×16的矩阵布局,昇腾的NPU偏好32×32的矩阵布局),调整模型参数与中间结果的存储格式,将内存访问效率提升约25%;
  • 稀疏计算适配:针对芯片的稀疏计算单元(如英伟达A100的稀疏Tensor Core),优化了MoE稀疏激活的计算逻辑——仅将激活的专家参数加载至计算单元,未激活的专家参数存储于显存,减少了无效计算。实测显示,这一优化可将昇腾芯片上的推理吞吐量提升约25%,英伟达芯片上的训练速度提升约15%。

4.2 性能优化效果

这些硬件协同优化的效果,最终体现在模型的训练与推理效率上:

  • 训练效率:在昇腾Atlas 800 A2集群上,模型的训练吞吐量达到了每秒3200万亿次浮点运算(FLOPS),较未优化前提升了约40%;
  • 推理效率:在英伟达H100芯片上,模型的推理吞吐量达到了每秒12000 tokens,较未优化前提升了约50%;
  • 能效比:在相同算力需求下,模型的能效比较未优化前提升了约30%——例如,完成1000轮智能体交互任务的能耗,从约20度降低至约14度。

5. 总结与展望

5.1 技术总结

Qwen3.5-397B-A17B的技术架构与性能表现,是通义千问团队在大模型领域多年技术积累的集中体现,其核心突破可概括为三点:

  1. 架构创新:通过“稀疏MoE+混合注意力”的架构设计,在保证超大规模模型知识容量的前提下,将推理效率提升了8.6~19倍,首次实现了“397B总参数规模、17B激活参数”的能效平衡,突破了超大规模模型的推理效率瓶颈;
  2. 工程优化:从FP8混合精度训练、异步RL框架到硬件协同优化,构建了全栈式的工程优化体系——FP8训练技术实现了50%的激活内存降低,异步RL框架实现了3~5倍的训练速度提升,硬件协同优化实现了30%以上的能效比提升,这些技术共同支撑了超大规模模型的稳定训练与高效部署;
  3. 能力升级:实现了从“文本模型”到“原生多模态智能体基座”的跨越——原生多模态融合设计使其能直接处理文本、图像、视频多模态输入,规模化RL训练使其具备了强大的工具调用与任务规划能力,全球化语言支持与长上下文能力则覆盖了更广泛的场景需求。

5.2 优势与局限

5.2.1 核心优势
  • 性能领先:在知识推理、数学推理、代码生成、多模态理解、智能体能力等核心任务上,均达到了当前开源模型的顶尖水平,部分任务(如BrowseComp搜索评测、OCRBench)甚至超过了GPT-5.2、Claude 4.5 Opus等闭源模型;
  • 效率极高:稀疏激活机制与全栈工程优化,使其推理成本较同参数量级模型降低了60%,部署门槛大幅降低——单张A100 80GB显卡即可运行,中小企业也能实现私有化部署;
  • 开源生态完善:采用Apache 2.0开源协议,提供了完整的模型权重、推理代码、训练框架、多模态工具链及API适配文档,支持免费商用与二次开发。第三方开发者社区已针对该模型开发了数十种量化版本(如Q4_K_M、IQ2_XS)与部署工具(如vLLM、SGLang),能满足从消费级设备到企业级集群的多样化部署需求。
5.2.2 局限性
  • 数学推理精度仍有提升空间:在MATH、AIME等高中及以上难度的数学竞赛基准中,其得分虽高于同参数量级模型,但较GPT-5.2、Claude 4.5 Opus等闭源模型低约5~8个百分点,尤其在复杂微积分、线性代数证明题场景,错误率相对较高;
  • 逻辑一致性控制难度较高:在长文档问答场景中,当上下文长度超过200K Token时,模型可能出现“事实混淆”或“逻辑断裂”的问题——例如,将文档前半部分的人物信息与后半部分的事件错误关联。官方技术报告显示,其长文档场景的事实性准确率较100K Token场景下降了约15%;
  • 低资源语言性能存在差异:虽然支持201种语言与方言,但在部分低资源语言(如非洲的豪萨语、亚洲的尼泊尔语)上,性能较中文、英文等主流语言低约20~30个百分点,主要原因是训练数据中低资源语言的占比较低(仅约5%)。

5.3 未来展望

基于该模型的技术基础,通义千问团队的未来研发方向主要集中在以下三个维度:

  1. 模型规模与稀疏度优化:计划进一步提升模型的总参数量至500B以上,同时将激活参数占比从当前的约4%(17B/397B)降低至2%以内——例如,总参数量500B,激活参数仅10B,进一步突破“性能-成本”的平衡极限;
  2. 智能体能力升级:重点提升模型的长周期任务规划能力——例如,支持跨天的复杂项目管理任务;同时增强工具调用的可靠性,计划将工具调用的错误率从当前的约5%降低至1%以内;
  3. 多模态交互深化:计划支持更长时长的视频理解(从当前的20分钟提升至60分钟),并增强视频内容的细粒度理解能力(如识别视频中的动作序列、场景变化);同时探索多模态创作能力,例如根据文本描述生成视频脚本或短视频。在这里插入图片描述
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐