DeepSeek在接连发布大语言模型V3,推理模型R1之后,DeepSeek随后又发布两款多模态框架:Janus-Pro 与 JanusFlow ,引领多模态模型新时代!

而且依然是保持了一贯的风格,保持了完全开源,今天我们来看看这个最新的多模态模型:Janus-Pro

Janus系列

Janus是DeepSeek在先前发布的一个自动回归框架,可以统一多模式的理解和产生。它通过将视觉编码解码为单独的路径来解决以前方法的局限性,同时仍利用单个统一的变压器体系结构进行处理。脱钩不仅减轻了视觉编码器在理解和发电中的作用之间的冲突,而且还可以增强框架的灵活性。 Janus超过了以前的统一模型,并超过了特定于任务模型的性能。 Janus的简单性,高灵活性和有效性使其成为下一代统一多模型模型的有力候选人。

Janus-Pro

Janus-Pro是先前作品Janus的高级版本。具体而言,一种在原有 Janus 模型基础上优化的多模态理解与生成统一模型。通过以下三方面的改进:(1)优化的训练策略,(2)扩展的训练数据,(3)模型规模的扩大,Janus-Pro 在多模态理解和文本到图像生成任务中均实现了显著提升。实验表明,Janus-Pro 在 MMBench、GenEval 等基准测试中超越了现有统一模型及部分任务专用模型。

PS:代码和模型已开源。

image-20250206094519184

Janus-pro 效果及改进方案

根据官方给了一些生成的效果图,我们能够看到新版的Janus-pro明显强于 Janus 原版。虽比不上 Midjourney 那般艺术,但应为第一梯队。

image-20250206094940455

同时官方也给出了很多,对比当下主流模型的对比数据,这里可以看出Janus-pro的厉害之处。如果是对比 OpenAI 的 DALL-E 3,参数会领先不少,并且直接霸榜。
image-20250206095535363

1. 核心改进
  1. 训练策略优化
    • 阶段调整:延长第一阶段(ImageNet 数据训练),跳过第二阶段中低效的 ImageNet 训练,直接使用高质量文本到图像数据,提升生成效率。
    • 数据比例调整:在微调阶段减少文本到图像数据占比(从 10 降至 4),平衡生成与理解能力。
  2. 数据扩展
    • 多模态理解:新增 9,000 万样本(含图像描述、表格/图表理解等),提升模型泛化能力。
    • 视觉生成:引入 7,200 万合成美学数据(真实与合成数据比例 1:1),改善生成稳定性和美观性。
  3. 模型规模扩展
    • 模型参数从 1.5B 扩展至 7B,验证了视觉编码解耦方法的可扩展性。大模型在损失收敛速度和任务表现上均显著优于小模型。
2. 实验结果
  1. 多模态理解
    • MMBench:Janus-Pro-7B 得分 79.2,超越 TokenFlow-XL(13B,68.9)、MetaMorph(8B,75.2)。
    • 细粒度任务:在 POPE(87.4)、MMMU(41.0)等任务中表现优异。
  2. 文本到图像生成
    • GenEval:Janus-Pro-7B 综合得分 0.80,优于 DALL-E 3(0.67)和 SD3-Medium(0.74)。
    • DPG-Bench:得分 84.19,在密集语义对齐任务中表现最佳。
  3. 定性结果
    • 生成图像分辨率(384×384)虽低,但细节丰富且语义准确(如“秋叶中的金毛犬”“沙漠中的水晶球”)。
3. 局限性
  • 多模态理解:输入分辨率限制(384×384)影响 OCR 等细粒度任务。
  • 视觉生成:低分辨率与重建损失导致细节不足(如小面部区域)。未来可通过提升分辨率改进。
4. 开源信息
  • 代码与模型:GitHub 项目页 https://github.com/deepseek-ai/Janus
  • 训练框架:基于 HAI-LLM(轻量级分布式训练框架),使用 16/32 节点(A100 GPU)耗时 9/14 天完成训练。

结语

Janus-Pro在多模态理解和文本到图像指令遵循能力方面都取得了重大进展。然而,Janus-Pro仍然有一定的局限性。在多模态理解方面,输入分辨率限制在384 × 384,这影响了其在OCR等细粒度任务中的性能。对于文本到图像的生成,低分辨率加上视觉标记器带来的重建损失,导致图像虽然具有丰富的语义内容,但仍然缺乏精细的细节

项目信息

  • 项目名称:Janus
  • GitHub 链接:https://github.com/deepseek-ai/Janus
  • Star 数:4K
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐