deepseek：统一多模态理解和生成模型

多模态理解和视觉生成任务中的性能存在一定的冲突。论文提出了Janus-Pro模型，通过优化训练策略、扩展训练数据和扩大模型规模，显著提升了多模态理解和文本到图像生成的能力。

大模型任我行

1366人浏览 · 2025-02-04 10:00:00

大模型任我行 · 2025-02-04 10:00:00 发布

在这里插入图片描述

📖标题：Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
🌐来源：arXiv, 2501.17811

🌟摘要

🔸在这项工作中，我们介绍了Janus Pro，这是之前工作Janus的高级版本。具体来说，Janus Pro整合了（1）优化的训练策略，（2）扩展的训练数据，以及（3）扩展到更大的模型尺寸。
🔸通过这些改进，Janus Pro在多模式理解和文本到图像指令跟踪功能方面取得了重大进展，同时也提高了文本到图像生成的稳定性。我们希望这项工作能够激发该领域的进一步探索。代码和模型是公开在https://github.com/deepseek-ai/Janus

🛎️文章简介

🔸研究问题：多模态理解和视觉生成任务中的性能存在一定的冲突。
🔸主要贡献：论文提出了Janus-Pro模型，通过优化训练策略、扩展训练数据和扩大模型规模，显著提升了多模态理解和文本到图像生成的能力。

📝重点思路

🔸模型架构：采用解耦的视觉编码方法，分别处理多模态理解和视觉生成任务，使用独立的编码器来提取特征，并通过统一的自动回归变换器进行处理。
🔸三阶段训练：依旧遵循先前版本的三阶段训练流程 ①阶段一专注于训练适配器和图像头 ②阶段二处理统一的预训练，其中除了理解编码器和生成编码器之外的所有组件都更新它们的参数 ③阶段三是有监督的微调。
🔸优化训练策略：①增加了阶段一的训练步骤 ②在阶段二去掉ImageNet数据，直接利用正常的文本到图像数据来训练模型 ③调整了阶段三的数据比率
🔸扩展训练数据：在第二阶段预训练数据中，增加了约9000万样本，包括图像字幕数据集（如YFCC）以及表格、图表和文档理解数据（如Docmatix）。在第三阶段监督微调数据中，引入了更多数据集（如MEME理解和中文对话数据），以增强模型的对话体验。
🔸扩大模型规模：将模型从1.5B扩展到7B，验证了更大规模语言模型在多模态理解和视觉生成任务中的收敛速度和性能提升。

🔎分析总结

🔸多模态理解性能：Janus-Pro在多个基准测试中表现优异，特别是在MMBench上取得了79.2的分数，超越了现有的统一多模态模型（如Janus、TokenFlow和MetaMorph）。
🔸视觉生成性能：在GenEval和DPG-Bench上，Janus-Pro-7B分别取得了80%的总体准确率和84.19的分数，超越了所有其他统一或仅生成方法（如Transfusion、SD3-Medium和DALL-E 3）。
🔸模型扩展效果：使用7B模型相比1.5B模型，多模态理解和视觉生成任务的损失收敛速度显著提升，验证了该方法的强扩展性。
🔸数据扩展效果：引入合成数据后，模型在文本到图像生成任务中的稳定性和美学质量显著提升，且训练速度加快。