
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
从今年 1 月 DeepSeek-R1 的提出,到人们开始在多模态大模型、甚至自动驾驶的 VLM 中加入 GRPO,仅仅过去了不到两个月。我们可以看到在这一波开源的浪潮下,AI 领域的发展肉眼可见地再次加速,下一次突破可能已近在眼前。不过在这股浪潮中,能算得上引领潮流的团队只是少数。进入大模型时代之后,昆仑万维在多模态领域的探索一直引人关注。
DeepSeek-R1 问世后,我们一直在期待能「强推理、慢思考」的大模型进化成多模态模式。如果能在视觉等各领域复刻强化学习(RL)在文本上的突破,AI 应用势必会将更多领域推入新的范式。
毫无疑问,这也是众多科技公司正在探索的方向。
3 月 18 号,昆仑万维正式发布 Skywork R1V(以下简称 R1V)系列模型,实现了 SOTA 级别的视觉推理和强大的通用推理能力。随着新模型的到来,昆仑万维成为了国内第一家开源多模态思维链推理模型的企业。
目前,昆仑万维已经开源了 R1V 的模型权重和技术报告。
- Hugging Face 地址:https://huggingface.co/Skywork/Skywork-R1V-38B
- Github 地址:https://github.com/SkyworkAI/Skywork-R1V
- 技术报告地址:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
具体表现如何呢?从多项基准测试来看,R1V-38B 相比较文本推理模型,已经在数学推理、代码生成等任务中达到了领先水平,在部分任务上接近了更大尺寸的闭源模型。相比较传统多模态模型(如 OpenAI 4o、Claude 3.5 Sonnet),R1V 的推理能力更是遥遥领先,相比开源大模型 DeepSeek V3 也有所提升。
在推理能力方面,R1V-38B 同样可以达到顶尖水平。在权威的 MATH500 和 AIME 数学推理基准测试中,R1V 分别取得了 94.0 和 72.0 的高分,并在逻辑推理和数学问题求解上展现出了人类专家级水准,从而在行业内众多主流模型中脱颖而出。
而在视觉能力方面,R1V 成功实现了强文本推理能力的多模态迁移,在视觉推理任务上表现出色,凭借着创新的跨模态迁移技术与优化框架,R1V 在 MMMU 与 MathVista 等视觉推理基准中分别取得了 69 和 67.5 的成绩,不仅超越了多个开源竞品模型,更达到了与更大规模闭源模型媲美的水准。
更值得关注的是,R1V 成为全球范围内首个在数学推理能力上接近 OpenAI o1 的开源多模态模型。
最近一段时间,DeepSeek 的突破让我们看到了在大模型上引入强化学习的潜力。现在,昆仑万维的实践似乎也已经给多模态打开了方向。
多模态喜获「强推理」
AI 应用格局打开
昆仑万维表示,R1V 视觉推理模型可以同时处理文本与视觉信息,拥有强大的跨模态推理能力,可轻松应对复杂的逻辑推理、数学问题、科学分析以及医学影像诊断等场景。
因为多模态 + 强推理的能力,大模型「睁开了眼睛」,因此也拓展了一大堆新的应用方向。
我们搜罗了一些不同学科(包括数学、化学、医学等)的题目,对 R1V 的解题推理能力来了一波考察。
先来一道 2025 考研数学题目:
很快,R1V 的完整解题思路和正确答案就展现了在我们面前:
接着让 R1V 分析下图化学分子式描述的是哪种立体几何构型:
这类题目要求多模态推理模型熟练、准确地判断、区分各类化学分子图,经过了抽丝剥茧的推理过程,R1V 给出了正确答案。
R1V 的知识面还不止于此,它甚至还略懂医学影像,看看它是如何诊断这张 CT 图片的。当然,分析结果仅供参考,最终的诊断和治疗还是要交给医生,由他们根据实际情况来做出。
最后,我们还测试了 R1V 的其他视觉推理能力,比如柱状图的数值分析:
,时长01:05
可见,无论是数学等不同学科的一般性问题,还是一些更需要「眼力见」的视觉场景,R1V 都可以应付自如。
三大核心技术创新
让开源视觉思考模型成功「上位」
为什么到了 R1V 的程度,多模态上的强推理就能跑通了?在 R1V 发布的技术报告中,我们可以了解到其中的技术创新。
视觉多模态的特殊性决定了其推理与数学、逻辑等自然语言推理的不同,前者要解决跨模态对齐等一系列挑战。尽管当前的视觉语言模型(VLM)在描述性任务(比如为图像生成连贯且上下文相关的文本描述)方面表现出色,但它们在几何证明、科学问答等涉及深度逻辑的多模态任务中仍然不如单模态系统。
图片来自英伟达博客:https://developer.nvidia.com/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/
对此,学界提出将具有推理能力的语言模型集成到 VLM 中来增强后者的推理能力。虽然这一方案很有潜力,但实现过程中也面临挑战。比如,推理任务的独特性要求在训练时使用专门的推理格式的数据,然而当前的 VLM 数据集主要由非推理内容组成,即使是一些包含 VLM 思维链的示例,往往缺乏高级推理任务所需的复杂性。
此外,VLM 的推理能力提升也依赖多模态表征学习、知识增强、模块化架构设计等技术层面的协同进步。显然,昆仑万维的 R1V 在这些方面做出了突破。
作为一个 VLM 推理模型,R1V 采用高效的多模态迁移方法,最大程度保留了文本推理能力,同时优化视觉任务表现。同时,R1V 提出通过混合优化策略来加强视觉文本对齐,显著提升了跨模态集成效率。最后,R1V 引入自适应长度思维链蒸馏方法来生成推理数据。
正是有了这三大核心技术的支撑,R1-V 才取得了领先的多模态推理性能。我们接下来一一来解析。
一,高效多模态推理能力迁移。该工作首次提出了利用轻量级 Skywork-VL 视觉投影器,使 R1V 模型实现了无缝多模态适应。这样一来,无需重新训练基础语言模型或视觉编码器,就能高效地将文本推理能力迁移到视觉任务中,同时将原有优秀的推理文本能力保留了下来。
二,多模态混合式训练,具体来讲是将迭代监督微调(Iterative SFT) 与 DeepSeek-R1 的核心 RL 算法群组(相对策略优化,GRPO)相结合,分阶段地对齐视觉 - 文本表征,达成跨模态任务的高效融合,将跨模态任务的表现提升了一大步。
其中在迭代监督微调阶段,对于利用奖励模型从全部数据中挑选出的高质量数据以及在前序训练过程中模型未能正确处理的难点数据,进行反复迭代微调,让 R1V 持续地巩固自身知识并自我纠错,稳步提升视觉推理能力。
在 GRPO 强化学习阶段,不额外引入评判器,仅对 R1V 生成的不同答案进行组内对比学习,最终大幅提升多模态推理的稳定性、精度和泛化表现。
如下为混合优化框架的示意图,包括了三个细化步骤:基于完整数据集的原始训练、利用自定义数据的迭代训练以及强化学习。三个阶段共同作用,成为 R1V 多模态推理能力提升的关键。
多模态混合式训练
三,自适应长度思维链蒸馏(AL-CoTD)。R1V 引入了一种基于视觉 - 文本复杂度的自适应推理链长度控制机制,可以对模型的推理过程进行动态优化,在提升推理效率的同时避免模型过度思考。此外结合多阶段自蒸馏策略,提升了数据生成与推理过程的质量,确保模型在复杂多模态任务中依然有不俗的表现。
下图为具体的流程,包括了质量和难度评估模块(QDAM),从视觉评分和文本评分两个主要维度来系统地评估图像 - 文本查询对;视觉 - 文本集成分析器(VTIA),通过句法和语义分析确定跨模态集成所需要的深度,并根据图像 - 文本查询中的模式识别来计算集成评分;动态推理长度控制器(DRLC)以及在此基础上形成的多阶段自蒸馏 pipeline。
AL-CoTD 流程
除了整体技术方案的优化,R1V 的创新性还特别体现在训练过程中,通过「三阶段方法」将文本端强大的推理能力高效迁移至视觉任务上。
首先是视觉语言表征的初始对齐。训练时首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的 200 万条常规多模态数据上进行训练,使 MLP 初步学习如何将图像特征映射至语言空间。这一阶段仅训练 MLP 适配器,在保持视觉编码器和语言模型的数冻结不变的情况下,快速、高效地达成视觉与语言表征初步对齐的目的。
其次是推理能力迁移。基于第一阶段训练好的 MLP 适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成 R1V 视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和 MLP 的泛化能力,重组后的模型已能表现出一定的视觉推理能力,初始性能即达到了业内同等规模的先进水平。
最后是视觉与文本模态精准对齐,即上面提到的「混合优化框架」,结合迭代监督微调和 GRPO 进一步精准对齐视觉和语言模态表征。
结果显而易见,高效的训练策略带来了 R1V 视觉推理任务的突破性进展,在跨多学科的不同公开评测基准中达到或超过了现有领先模型的性能,具体可见下表 1(与开源近似尺寸横向对比)、图 1 (与开源同等及更大尺寸模型对比)和图 2 (与开源大尺寸模型以及闭源专有模型对比)。
表 1:与开源近似尺寸模型横向对比
图 1:与开源同等及更大尺寸模型对比
图 2:与开源更大尺寸模型以及闭源专有模型对比
在开源 R1V 模型并公开方法之后,昆仑万维希望能够推动全球范围内的学术研究与产业应用探索。不仅如此,昆仑万维 Skywork 团队正在进行从视觉多模态跨越到全模态的技术探索,将包括「文本、视觉、语音」在内所有环节打通并开源。
为此,该团队设计了一种在 R1V 模型中灵活扩展语音模态的方式,从而构建了一个全模态思考大模型,不仅在单个模型中同时实现了图像、视频、语音的全模态理解能力,还在语音和视觉理解评测中取得多项 SOTA 成绩。未来将公布相关评测成绩并同样开源这一全模态思考大模型。
结语
从今年 1 月 DeepSeek-R1 的提出,到人们开始在多模态大模型、甚至自动驾驶的 VLM 中加入 GRPO,仅仅过去了不到两个月。我们可以看到在这一波开源的浪潮下,AI 领域的发展肉眼可见地再次加速,下一次突破可能已近在眼前。
不过在这股浪潮中,能算得上引领潮流的团队只是少数。
进入大模型时代之后,昆仑万维在多模态领域的探索一直引人关注。过去三年,昆仑万维在音乐大模型、文本大模型和视频模型等方向取得了一系列成绩,建立了自己的 AI 产品矩阵,包括懂金融、学术的天工 AI 搜索、全球首个 AI 音乐创作平台 Mureka、AI 短剧平台 SkyReels、AI 社交产品 Linky 等等。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)