前言

通过本博客中的此文《一文通透Qwen2.5 VL:从Qwen-VL、Qwen2-VL(提出了M-RoPE且应用在了我司提问VLM系统中)到Qwen2.5-VL》,以及Qwen最新发布的VL模型,可了解到

模型

发布时间

核心特点

Qwen-VL

2023年8月

基础图文理解、视觉问答(VQA)、图像描述、视觉定位

Qwen-VL-Chat

2023年8月

基于Qwen-VL的指令微调对话版,支持多轮图文交互

Qwen-VL-Max

2023年底

闭源旗舰版,更强的推理与复杂图文理解能力

Qwen2-VL

2024年9月

引入多维旋转位置编码(mRoPE),支持视频理解;统一处理图像/视频/文本的三维空间关系

Qwen2.5-VL

2025年1月

支持原生动态分辨率、长视频理解(10分钟以上)、秒级事件定位、视觉Agent(GUI操作/手机操控)、JSON结构化输出

Qwen3-VL

2025年9月

引入VL-Thinking视觉深度思维链,构建跨时空因果逻辑体系

Qwen3.5

2026年3月

原生多模态Agent架构,采用Early Fusion早期融合策略,不再是简单的"视觉编码器+LLM"拼接

第一部分 Qwen3-VL

25年国庆节前,阿里千问团队发布了Qwen3-VL『其blog、其技术报告:Qwen3-VL Technical Report其GitHub』,其具备如下特征

  • 视觉 Coding 能力大幅提升
    实现图像生成代码以及视频生成代码,例如看到设计图,代码生成 Draw.io/HTML/CSS/JS 代码,真正实现“所见即所得”的视觉编程
  • 空间感知能力大幅提升
    2D grounding 从绝对坐标变为相对坐标,支持判断物体方位、视角变化、遮挡关系,能实现 3D grounding,为复杂场景下的空间推理和具身场景打下基础
    ————
    嗯,这个具身场景 很得我心啊,^_^
    顺带,我于25年10.9日发现,
    Qwen也要做机器人了:林俊旸官宣成立具身智能团队

    不过,确实有不少具身模型 基于Qwen-VL搞

  • 长上下文支持和长视频理解
    全系列模型原生支持 256K token 的上下文长度,并可扩展至 100 万 token
    这意味着,无论是几百页的技术文档、整本教材,还是长达两小时的视频,都能完整输入、全程记忆、精准检索,支持视频精确定位到秒级别时刻

1.1 相比VL2.5的三大改进与训练流程

1.1.1 相比VL2.5的三大改进

在架构上,他们仍旧采用原生动态分辨率设计,但在结构设计上进行了更新:

  1. 一是采用增强的位置编码:MRoPE-Interleave,原始MRoPE将特征维度按照时间(t)、高度(h)和宽度(w)的顺序分块划分,使得时间信息全部分布在高频维度上
    因此,在 Qwen3-VL 中采用交错式 MRoPE,将 t、h、w 在低频和高频带上均匀分布,从而获得更忠实的位置表示盖,这样更加鲁棒的位置编码能够保证模型在图片理解能力相当的情况下,提升对长视频的理解能力
  2. 二是引入 DeepStack 技术,融合 ViT 多层次特征,提升视觉细节捕捉能力和图文对齐精度;即沿用 DeepStack 的核心思想,将以往多模态大模型(LMM)单层输入视觉tokens的范式,改为在大型语言模型 (LLM) 的多层中进行注入
    这种多层注入方式旨在实现更精细化的视觉理解

    且在此基础上,他们进一步优化了视觉特征 token 化的策略
    具体而言,将来自 ViT 不同层的视觉特征进行 token 化,并以此作为视觉输入
    这种设计能够有效保留从底层(low-level)到高层(high-level)的丰富视觉信息。且实验结果表明,该方法在多种视觉理解任务上均展现出显著的性能提升
  3. 三是将原有的视频时序建模机制 T-RoPE 升级为 文本时间戳对齐机制
    该机采用“时间戳-视频帧”交错的输入形式,实现帧级别的时间信息与视觉内容的细粒度对齐

    同时,模型原生支持“秒数”与“时:分:秒”(HMS)两种时间输出格式
    这一改进显著提升了模型对视频中动作、事件的语义感知与时间定位精度,使其在复杂时序推理任务——如事件定位、动作边界检测、跨模态时间问答等——中表现更稳健、响应更精准

1.1.2 训练流程

为了构建更强大、更稳健的视觉—语言基础模型,作者从数据质量、多样性和结构等方面对训练数据进行了全面革新

  1. 关键升级包括:增强的图像描述监督、扩展的泛识别与 OCR 覆盖范围、结合三维/空间推理的规范化对齐机制,以及面向代码、长文档和具备时间对齐属性视频的新语料库
  2. 且作者进一步引入了思维链推理数据和高质量且多样化的 GUI-智能体交互数据,以打通感知、推理与行动

总体而言,这些创新共同实现了更强的多模态理解、更精确的对齐能力以及由工具增强的智能

此外,训练流程由两个阶段组成:预训练和后训练

预训练包含四个阶段:

  1. 首先是预热对齐阶段,在这一阶段中,仅更新合并器(vision–language projection)层,而将模型的其他部分保持冻结
  2. 随后进行全参数训练,并逐步增大上下文窗口大小,对应 8K、32K 和 256K 的序列长度

 后训练由三个阶段构成:

  1. 在长链式思维数据上进行有监督微调
  2. 从更强的教师模型进行知识蒸馏
  3. 强化学习

1.2 模型架构

遵循 Qwen2.5-VL的设计,Qwen3-VL 采用由三个模块组成的架构,包括视觉编码器、基于 MLP 的视觉-语言融合模块,以及大语言模型

图 1 展示了该模型的详细结构

  1. 大型语言模型
    Qwen3-VL 以
    三种稠密版本Qwen3-VL-2B/4B/8B/32B

    两种 MoE 版本
    Qwen3-VL-30B-A3B,Qwen3-VL-235B-A22B
    实例化
    全部构建在 Qwen3 主干之上
    ——
    旗舰模型 Qwen3-VL-235B-A22B 具有 2350 亿总参数,每个 token 激活 220 亿参数
  2. 视觉编码器
    作者采用 SigLIP-2 架构(Tschannen 等,2025)作为视觉编码器,以官方预训练检查点进行初始化,并在此基础上继续使用动态输入分辨率进行训练
    ————
    为有效适配动态分辨率,作者采用 2D-RoPE,并根据输入尺寸对绝对位置嵌入进行插值,遵循 CoMP(Chen 等,2025)中的方法
    具体而言,默认使用 SigLIP2-SO-400M 变体,对
    小规模 LLM(2B和4B)则采用 SigLIP2-Large (300M)
  3. 基于 MLP 的视觉-语言合并器
    与 Qwen2.5-VL 相同,作者使用一个两层 MLP 将来自视觉编码器的 2×2 视觉特征压缩为单个视觉 token,并与 LLM 的隐层维度对齐
    此外,还部署了专用的合并模块以支持 DeepStack 机制

1.2.1 交错式MRoPE

Qwen2-VL引入了 MRoPE,用于对多模态输入的位置信息进行建模

  1. 在其最初的形式中,嵌入维度被划分为时间 (t)、水平 (h) 和垂直 (w) 子空间,并为每个子空间分配不同的旋转频率
    这会导致频谱分布不均衡,而后续研究表明,这种不均衡会削弱在长视频理解基准上的性能
  2. 为了解决这一问题,作者通过在嵌入维度上交错排列 t、h和 w 分量来重新设计频率分配方式 (Huang et al.,2025)
    这样可以确保每个时空轴在低频和高频段上都得到均匀表示。由此得到的平衡频谱减轻了原始的频谱偏置,并显著提升了对视频长程位置信息的建模能力

1.2.2 DeepStack

从 DeepStack中获得启发,将视觉 token 注入到 LLM 的多个层中。不同于原始DeepStack 方法仅对来自多尺度视觉输入的 token 进行堆叠,作者将 DeepStack 扩展为从 VisionTransformer(ViT)的中间层中提取视觉 token。这样的设计能够保留从低层到高层表示的丰富视觉信息

具体而言,如图 Figure1 所示

  1. 作者从视觉编码器的三个不同层级中选取特征
  2. 随后,专门的视觉—语言融合模块将这些多层级特征投影为视觉 token,并直接添加到大型语言模型前三层对应的隐状态中

1.2.3 视频时间戳

在 Qwen2.5-VL 中,作者采用了一种与时间同步的 MRoPE 变体,为模型注入时间感知能力。然而,作者发现这种方法存在两个关键局限:

  1. 由于将时间位置 ID 直接绑定到绝对时间,对于长视频会产生过大且过于稀疏的时间位置 ID,从而削弱模型对长时间上下文的理解能力
  2. 在该方案下实现有效学习,需要在不同帧率fps上进行大量且近似均匀分布的采样,这大幅提升了训练数据构建的成本

为了解决这些问题,作者采用了一种基于文本 token 的时间编码策略(Chen et al., 2024b),其中在每个视频时间 patch 前都添加一个以格式化文本字符串表示的时间戳,例如:<3.0 seconds>

此外,在训练过程中,作者会同时生成以秒为单位的时间戳和以 HMS(hours:minutes:seconds)格式表示的时间戳,从而确保模型能够学习并理解多种时间码表示方式。尽管这种方法会略微增加上下文长度,但它能使模型更有效且更精确地感知时间信息,从而更好地支持诸如视频定位和密集描述等时间感知型视频任务

1.3 预训练

1.3.1 训练配方

首先在预训练的 SigLIP-2 模型基础上,通过使用动态分辨率进行持续训练来增强视觉编码器。整体 Qwen3-VL 模型采用三模块架构,由该视觉编码器、一个基于 MLP 的视觉-语言融合器以及 Qwen3 大语言模型(LLM)骨干组成

在此架构之上,作者将预训练方法系统化地划分为四个不同阶段,旨在逐步构建从基础对齐到长上下文理解的各项能力。这些阶段的概览见表1

  1. 阶段 0:视觉-语言对齐
    初始阶段(S0)侧重于高效弥合视觉编码器与 LLM 之间的模态差距
    关键在于,此阶段仅训练 MLP 合并模块的参数,而视觉编码器和 LLM 主干均保持冻结
    ————
    作者使用了一个精心筛选的数据集,规模约为 670 亿个 token,由高质量的图像-文本描述对、视觉知识集合以及光学字符识别(OCR)数据组成
    所有训练均在 8,192 的序列长度下进行。这种“对齐优先”的策略在进入全参数训练之前,为跨模态理解奠定了坚实基础
  2. 阶段 1:多模态预训练
    在完成初始对齐之后,阶段 1(S1)转入全参数多模态预训练
    在这个阶段,作者解冻所有模型组件——视觉编码器、合并器以及 LLM——进行联合的端到端训练

    模型在一个规模巨大且多样化的数据集上进行训练,该数据集大约包含 1 万亿(1T)个 token
    为了维持 LLM 强大的语言能力,数据混合由视觉-语言(VL)数据和纯文本数据组成
    VL 部分十分丰富多样,加入了交替编排的图文文档、视觉定位(visual grounding)任务、视觉(VQA)任务、来自 STEM 领域的数据,以及少量视频数据,用于引入对时间维度的理解
    序列长度保持为 8,192
  3. 阶段2:长上下文预训练
    阶段 2(S2)的目标是显著扩展模型的上下文处理能力。本阶段的一个关键变化是将序列长度提高四倍至 32,768,同时仍然保持所有模型参数可训练
    ————
    训练在一个约包含1T tokens 的数据集上进行,并对数据混合比例进行了调整以支持长上下文任务
    通过增加纯文本数据的比例来增强对长篇文本的理解能力,而其余的视觉-语言(VL)数据则引入了显著更多的视频数据以及面向智能体的指令跟随数据
    本阶段对于使模型能够处理并推理更长时长的视频以及复杂的多步骤任务至关重要
  4. 阶段 3:超长上下文适配
    最终阶段(S3)是一个专门设计的阶段,旨在将模型的上下文窗口推至其运行极限
    在这一阶段,作者将序列长度大幅提升至 262,144
    ————
    模型在一个更为聚焦、专为此目的筛选构建的 100B token 数据集上进行训练
    该数据集同样由纯文本数据和 VL 数据组成,并且特别强调长视频和长文档理解任务
    这个最终的适配阶段巩固了 Qwen3-VL 在处理和分析极长序列输入方面的能力,而这正是诸如综合文档分析和长视频摘要等应用场景中的关键能力

1.3.2 预训练数据

第一,对于图像描述与交织文本-图像数据

为构建一个适用于通用视觉–语言理解的稳健基础模型,作者大幅扩展并优化了两类核心数据模态:

  1. 图像–文本描述对
  2. 交错排列的文本–图像序列

作者的策略重点在于构建高质量、多样化且语义信息丰富的多模态对齐数据,并通过专门设计的模型和严格的过滤流水线加以支撑

  • 图像描述数据:作者从网络资源中筛选整理了一个大规模的当代多语种图文配对语料库,该语料库以中英双语为主,并基于一条以专门为重写图像描述(recaptioning)而微调的Qwen2.5-VL-32B 模型为核心的多阶段精炼流水线进行处理
    ————
    该模型利用与每张图像关联的原始文本,生成更加全面、流畅且细粒度的图像描述——在丰富对视觉元素(如物体属性、空间布局和上下文语义)的刻画的同时,也提升了文本部分的语言质量和信息承载性

    去重仅在重新生成的图像描述文本上进行,并使用语义相似度度量,从而在不牺牲视觉多样性的前提下移除冗余样本
    为了进一步提升对欠代表概念的覆盖,作者在视觉嵌入上应用聚类(Johnson et al., 2019; Douze et al., 2024; Diao et al., 2025),以识别数据分布中的稀疏区域并执行有针对性的增广。最终得到的是一个在规模、多样性和描述粒度之间取得平衡的高保真图像描述数据集
  • 交错文本-图像数据
    作者从近期的中文和英文网站收集多样化的真实世界多模态文档(Laurençon et al.,2023; Zhu et al.,2023; Li et al.,2024c)
    所有文档都会通过一个轻量级的、基于 Qwen 的打分器进行领域分类(Wettig et al.,2025),该打分器经过微调以实现细粒度领域识别
    基于跨领域的验证实验,作者系统性地剔除有害或低价值的类别——例如广告、促销内容和标题党等,并使用同一个高效打分器过滤掉这些不期望的样本

    对于书本尺度的交错数据,作者采用经过微调的 Qwen2.5-VL-7B 模型执行高精度多模态解析,精确抽取并对齐文本与其中嵌入的图表、示意图和照片
    为了实现超长上下文建模,作者通过将相邻页面合并为最长 256K tokens 的序列来构建一个专门子集,同时保留自然的页面顺序和多模态连贯性

    在预处理阶段,作者施加严格的质量控制:
    \rightarrow  i)删除纯文本或图文对齐度较低的片段;
    \rightarrow  ii)对于超长书本序列,要求满足最小页数以及最小图文比,以确保在整个上下文中存在有意义的视觉—文本交互
    由此得到一个干净、多样且具版式感知能力的交错语料库,并针对扎根式理解和长程多模态推理进行了优化

第二,对于物理交互层面的数据

世界知识对于多模态大语言模型MLLMs在各类下游任务中实现稳健的视觉理解、扎实的推理能力以及实体感知的生成至关重要

  1. 为使 Qwen3-VL 全面掌握真实世界与虚构概念,作者构建了一个以实体为核心、涵盖十余种语义类别的大规模预训练数据集——包括动物、植物、地标、美食,以及车辆、电子产品、服饰等日常物体

    现实世界中的实体遵循长尾分布:显著概念(高突显度实体)出现频繁,并伴有高质量标注,而大多数实体则相对罕见
  2. 为解决这种不平衡,作者采用基于重要性的采样策略。对高突显度实体进行更高比例的采样,以确保足够的学习信号;而对低突显度实体则以较小比例纳入,从而在不给训练过程造成过度负担的前提下保持广泛覆盖。该方法在数据质量、实用性与多样性之间实现了有效平衡

    所有保留的样本都会经过一个多阶段的精炼流水线。除了对噪声和错位样本进行标准过滤之外,作者还会用更丰富的、由大语言模型(LLM)生成的描述,来替换原始或过于简略的文本标注——例如通用的 alt-text。这些增强后的标题不仅标识主要实体,还会描述其视觉属性、周围环境、空间布局,以及与其他物体或人物的交互,从而提供更加完整且有据可依的文本表征

综合来看,这些努力共同构建出一种知识密集、具备上下文感知能力且以判别为核心的训练信号,从而显著增强 Qwen3-VL 在真实世界场景中对视觉概念进行识别、推理及精确描述的能力

第三,对于OCR、文档解析与长文档理解

  • OCR
    为提升在真实世界图像上的 OCR 性能,作者采用由粗到细的处理流水线,整理构建了一个包含 3,000 万条内部采集样本的数据集
    该流水线通过将 OCR 专用模型生成的伪标签与 Qwen2.5-VL 的精修结果相结合,在完全不依赖人工标注的情况下对 OCR 标注进行细化
    ————
    在超出 Qwen2.5-VL 所支持的 10 种语言(不包括中文和英文)的基础上,作者进一步纳入了额外 29 种语言,合成了约 3,000 万条高质量多语言 OCR 样本,并整理了超过 100 万张内部真实世界多语言图像
  • 文档解析
    在文档解析方面,作者从 Common Crawl 中收集了 300 万个 PDF,均匀覆盖 10种文档类型(每种 30 万个样本),并额外使用 400 万份内部文档

    首先,使用自研的版面布局模型预测文本和非文本区域的阅读顺序及其边界框;
    随后,由 Qwen2.5-VL-72B 对各区域进行针对性的识别
    最终,将这些输出重新组装为具备位置信息并与版面布局对齐的解析数据

    为在异构格式之间实现稳健的解析,作者设计了一个统一的标注框架,支持两种表示:
    \rightarrow  QwenVL-HTML,其中包含细粒度的元素级边界框
    \rightarrow  QwenVL-Markdown,其中仅对图像和表格进行定位,并使用 LaTeX 对表格进行编码

    总之,作者构建了一个具有精确标注的大规模合成 HTML 语料库,并系统地将其转换为 Markdown 格式
    且为了进一步提升模型的泛化能力,在大规模真实文档集合上生成伪标签,并对其进行质量筛选。最终的训练集将合成数据与高质量伪标注数据相结合,从而同时增强可扩展性和鲁棒性
  • 长文档理解
    为增强模型对多页 PDF(通常长达数十页)的理解能力,作者利用大规模长文档数据语料库

    \rightarrow  首先,通过合并单页文档样本来合成长文档解析序列
    在每个序列中,多个页面图像被置于开头,随后接上通过 OCR 或 HTML 解析得到的对应文本
    \rightarrow  其次,构建长文档视觉问答(VQA)数据
    具体而言,从高质量多页 PDF 文档中进行采样,并生成多样化的 VQA 样本集,这些样本要求模型在多页以及异构文档元素(如图表、表格、插图和正文文本)之间进行推理

    作者精心平衡问题类型的分布,并确保支撑证据来源于广泛的模态和版面组件,从而促进模型在扩展上下文上的稳健、可溯源、多跳推理能力

第四,对于定位与计数

如原论文所述,视觉定位(visual grounding)是多模态模型的一项基础能力,使其能够准确识别、理解并定位从特定物体到任意图像区域的广泛视觉目标

在 Qwen3-VL 中,作者系统性地增强了模型的定位能力,并支持两种定位形式:边界框和点。这些表示方式使模型能够在多种场景和下游任务中,对图像内容进行精确且灵活的解析

此外,作者还扩展了模型在定位方面的能力——使模型支持计数,从而能够对视觉实体进行定量推理。下面,简要介绍用于 grounding 和计数的数据构建流水线

  • 基于框的 Grounding:首先汇集了广泛使用的开源数据集,包括
    COCO (Lin et al.,2014)
    Objects365 (Shao et al.,2019)
    OpenImages (Kuznetsova et al.,2020)

    RefCOCO/+/g(Kazemzadeh et al.,2014; Mao et al.,2016)

    为了进一步丰富数据多样性,作者设计了一条自动合成流水线,用于在各种场景下生成高质量的目标标注。该流水线分三阶段运行:
    i)使用Qwen2.5-VL 从未标注图像中提取候选目标;
    ii)利用开放词汇检测器——具体为 Grounding DINO(Liu et al.,2023a),详见本博客中的此文《IDEA-Research推出的一系列检测、分割模型:从DINO(改进版DETR)、Grounding Dino、DINO-X到Grounded SAM2》)以及 Qwen2.5-VL 对这些候选目标进行定位和标注
    iii)对生成的标注进行质量评估,系统性地过滤掉置信度低或不准确的标注
    通过这一方案,作者构建了一个大规模且高度多样化的基于框的 grounding 数据集,覆盖了种类繁多的视觉场景和目标类别
  • 基于点的定位(Point-based Grounding)
    为实现稳健的基于点定位,作者构建了一个综合数据集,将公开可用的指点标注与合成生成的指点标注相结合

    该数据集整合了三类来源:
    i)来自PixMo(Deitke 等人,2024)的公开指点和计数标注;
    ii)由公开的目标检测和实例分割基准数据集导出的目标定位数据;
    iii)通过一个专门设计的合成流水线生成的高精度指点标注,该流水线旨在针对图像中的细粒度细节进行标注
  • 计数:在前述定位数据的基础上,筛选并整理出一个高质量子集,用于构建计数数据集
    该数据集涵盖三种不同的任务形式:直接计数、基于框的计数以及基于点的计数
    这三类任务共同构成了一个完整而全面的计数数据集

不同于 Qwen2.5-VL,作者在该版本中采用了缩放到范围[0, 1000]的归一化坐标系。这样的设计提升了模型在处理不同输入时对图像分辨率和纵横比变化的鲁棒性,同时也简化了后处理流程,并增强了预测坐标在下游应用中的可用性

第五,对于空间理解与三维识别

为促进与物理世界的复杂交互,Qwen3-VL 在设计时注重对空间上下文的深度理解。这使得模型能够解释空间关系、推断物体的可供性、执行动作规划以及进行具身推理。它还可以从单张单目图像中估计物体在三维空间中的位置。为支持这些能力,作者构建了两个围绕空间理解和三维定位的综合数据集

  • 空间理解
    除了定位物体之外,Qwen3-VL 还被训练用于在 2D 场景中推理空间关系、物体可供性和可行动作——这些能力对于具身智能和交互式应用至关重要

    为此,作者构建了一个超越标准 grounding 的专用数据集,其中包含:
    i)关系标注(例如,“笔记本电脑左侧的杯子”)
    ii)可供性标签(例如,“可抓取”“可按压”“可坐”)
    iii)需要规划的动作条件查询(例如,“为了够到显示器后面的那本书,我应该先移动什么?”)

    这些样本既来源于精心整理的真实世界场景,也来源于合成生成的布局;自然语言查询通过模板化和基于 LLM 的方法自动生成,以确保多样性和复杂度。关键在于,所有空间指代都是相对于其他物体或场景框架来表达的,而不是采用绝对坐标,从而鼓励更为稳健的关系推理
    这种训练使得 Qwen3-VL 不仅能够回答“在哪里”的问题,还能回答“如何做”和“可以做什么”——为面向视觉环境的代理式交互奠定了基础
  • 3D 定位
    为了进一步增强模型从图像中理解物理世界的能力,作者构建了一个专门用于 3D 视觉定位预训练的数据集

    作者从公开的、涵盖多样室内外场景的数据集中获取数据,并将其重新整理为视觉问答(VQA)形式。每个样本由以下内容组成:
    1)单视角相机图像;
    2)自然语言指代表达;
    3)对应的 9-DoF 三维边界框标注,以结构化 JSON 格式给出,用于指定目标的空间位置及语义标签

    由于这些 3D 边界框来源于多种传感器和数据源,其相机内参各不相同且存在固有噪声。为此,作者过滤掉被严重遮挡及不准确的标注,并参考 Omni3D(Brazil et al.,2023),将所有数据统一到一个虚拟相机坐标系中
    且作者还合成了大规模描述性文本,用于构造丰富的 3D 定位文本查询。这些描述不仅仅停留在目标类别命名上,还包括详细属性、布局结构、空间位置、视觉可供性以及与周围物体的交互,从而获得更加细粒度且语义落地的指代表达

第六,对于代码

通过在训练语料中加入两大类与代码相关的数据,增强了 Qwen3-VL 系列在编码方面的专门能力,使模型能够在纯文本和视觉条件约束两种情境下,对程序进行阅读、编写和推理

  • 纯文本代码(Text-Only Coding)
    作者复用了 Qwen3 和 Qwen3-Coder 系列中规模庞大的代码语料库。该大规模数据集覆盖了广泛的编程语言和应用领域——包括软件开发、算法问题求解、数学推理以及面向智能体的任务——并为模型建立了对代码语法、算法逻辑以及通用程序生成的基础理解
  • 多模态编码
    为了解决同时需要视觉理解和代码生成的任务,作者为一系列多样化的多模态编码任务精心整理了数据
    该数据集既来源于开源数据集,也来源于内部合成管线,用于教会模型在联合理解视觉输入的同时生成可执行代码

    数据覆盖了若干关键任务,包括:
    将 UI截图转换为响应式 HTML/CSS;从图像生成可编辑的 SVG 代码(Li et al., 2025c);
    求解视觉编程挑战(Li et al., 2024a);
    回答多模态编码问题(例如带有图像的 StackOverflow 帖子);
    以及将视觉表示(如流程图、示意图和 LATEX 公式)转写为相应的代码或标记

    这种新颖的数据混合方式使 Qwen3-VL 能够在视觉感知与可执行逻辑之间充当桥梁

第七,对于视频

Qwen3-VL 的视频理解能力得到了大幅提升,能够在多帧之间稳健建模时间动态、精细感知空间关系,并对超长视频序列进行连贯总结。该能力的提升得益于一条数据处理流水线,而其中包含两项关键创新:

  1. 时间感知的视频理解
    i)稠密字幕合成:针对长视频序列,作者采用由短到长的字幕合成策略,以生成整体性的、时间戳交织且时间一致的故事级描述。借助自研的字幕生成模型,我们进一步生产细粒度标注,同时捕捉事件层面的时间概括和分段级别的视觉细节

    ii)时空视频定位:作者整理并合成在物体、动作和人物层面带有标注的大规模视频数据,以增强模型的时空定位能力,从而提升其对视频内容的细粒度理解能力
  2. 视频数据的平衡与采样
    i) 源平衡:为确保数据的平衡性和多样性,作者构建了一个大规模数据集,涵盖多种视频来源,包括教学内容、电影类影片、第一人称视角录制等。数据集的平衡性通过系统化的筛选与整理来实现,该过程由视频标题、时长以及类别标签等元数据加以指导

    ii) 长度自适应采样:在预训练阶段,作者会根据不同的序列长度约束,动态调整采样参数,如每秒帧数(fps)以及最大片段帧数等
    该自适应策略缓解了由次优采样策略(例如过于稀疏的帧选取或过低的空间分辨率)带来的信息损失,从而在尽可能保留视觉细节的同时,优化训练效果

第八,对于科学、技术、工程与数学(STEM)

// 待更

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐