大模型扫盲：deepseek多模态之Janus-Pro和JanusFlow框架

Janus-Pro是一个新颖的自回归框架，统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径，同时仍采用单一的Transformer架构进行处理，解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突，还提升了框架的灵活性。

程序员鑫港

1309人浏览 · 2025-02-17 11:53:37

程序员鑫港 · 2025-02-17 11:53:37 发布

文章目录

note
一、Janus-Pro：解耦视觉编码，实现多模态高效统一
- 和之前版本的区别
- 技术亮点
- 模型细节
- 数据扩展
- 模型训练参数对比
二、JanusFlow-1.3B：融合生成流与语言模型，重新定义多模态
- 技术亮点
- 模型细节
Reference

一、Janus-Pro：解耦视觉编码，实现多模态高效统一

论文标题：Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
论文地址：https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
7B 版本：https://huggingface.co/deepseek-ai/Janus-Pro-7B
1B 版本：https://huggingface.co/deepseek-ai/Janus-Pro-1B
Hugging Face 试用链接：https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B

前排提示，文末有大模型AGI-CSDN独家资料包哦！

和之前版本的区别

Janus 的前一个版本采用了三阶段训练过程：

阶段 I：重点训练适配器和图像头。
阶段 II：进行统一预训练。在此过程中，除理解编码器和生成编码器外，所有组件的参数都会被更新。
阶段 III：进行监督微调。在阶段 II 的基础上，进一步解锁理解编码器的参数。

然而，这种训练策略存在一些问题。通过进一步的实验，DeepSeek 研究团队发现这一策略并不最优，并导致了显著的计算效率低下。为解决此问题，他们在原有基础上进行了两项修改：

在阶段 I 延长训练时间：研究者增加了阶段 I 的训练步数，以确保在 ImageNet 数据集上得到充分的训练。他们经过研究发现，即使固定了大语言模型（LLM）的参数，该模型仍能有效地建模像素间的依赖关系，并根据类别名称生成合理的图像。
在阶段 II 进行重点训练：在阶段 II 中，研究者去除了 ImageNet 数据，直接使用标准的文本生成图像数据来训练模型，从而使模型能够基于详细的描述生成图像。这种重新设计的方法使得阶段 II 能够更高效地利用文本生成图像的数据，并显著提高了训练效率和整体性能。

技术亮点

视觉编码解耦：采用独立的路径分别处理多模态理解与生成任务，有效解决视觉编码器在两种任务中的功能冲突。
统一 Transformer 架构：使用单一的 Transformer 架构处理多模态任务，既简化了模型设计，又提升了扩展能力。
高性能表现
- 多模态理解：模型性能匹配甚至超越任务专用模型。
- 图像生成：高质量图像生成能力，适配 384x384 分辨率，满足多场景需求。

在这里插入图片描述

模型细节

视觉编码器：采用 SigLIP-L[1]，支持 384x384 分辨率输入，捕捉图像细节。
生成模块：使用 LlamaGen Tokenizer[2]，下采样率为 16，生成更精细的图像。
基础架构：基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 打造。

数据扩展

研究团队在 Janus 的训练数据上进行了扩展，涵盖了多模态理解和视觉生成两个方面：

多模态理解：对于阶段 II 的预训练数据，参考 DeepSeek-VL2 ，并增加了大约 9000 万条样本。样本包括图像标注数据集，以及表格、图表和文档理解的数据。
视觉生成：前一个版本的 Janus 使用的真实世界数据质量较差，且包含大量噪声，导致文本生成图像时不稳定，生成的图像质量较差。在 Janus-Pro 中，研究者加入了大约 7200 万条合成的美学数据样本，在统一预训练阶段，真实数据和合成数据的比例为 1:1。

模型训练参数对比

在这里插入图片描述

二、JanusFlow-1.3B：融合生成流与语言模型，重新定义多模态

论文标题：JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
论文地址：https://arxiv.org/pdf/2411.07975

技术亮点

架构简约且创新：无需复杂改造，直接将生成流融入大语言模型框架，简化了多模态建模流程。
图像生成能力优越：结合 Rectified Flow 与 SDXL-VAE[3]，实现高质量 384x384 图像生成，广泛适配不同应用场景。
高灵活性与可扩展性：支持多任务扩展，成为统一多模态框架的优秀选择。

模型细节

在这里插入图片描述

视觉编码器：同样采用 SigLIP-L[4]，确保图像细节捕捉能力。
生成模块：基于 Rectified Flow 与 SDXL-VAE，生成精细度更高的图像。
基础架构：构建于 DeepSeek-LLM-1.3b-base，结合预训练与监督微调后的 EMA 检查点，性能表现卓越。

读者福利：倘若大家对大模型抱有兴趣，那么这套大模型学习资料肯定会对你大有助益。

针对0基础小白：

如果你是零基础小白，快速入门大模型是可行的。
大模型学习流程较短，学习内容全面，需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一，跟着老师的思路，由浅入深，从理论到实操，其实大模型并不难。

在这里插入图片描述

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

学习路上没有捷径，只有坚持。但通过学习大模型，你可以不断提升自己的技术能力，开拓视野，甚至可能发现一些自己真正热爱的事业。

最后，送给你一句话，希望能激励你在学习大模型的道路上不断前行：

If not now, when? If not me, who?
如果不是为了自己奋斗，又是为谁；如果不是现在奋斗，什么时候开始呢？

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

百度文心4.5 Turbo与DeepSeek、豆包、元宝对比：技术路径与市场格局分析

DeepSeek技术社区

基于Deepseek-LLM与腾讯云HAI的高效爬虫开发实战指南

本方案已在实际业务中实现日均千万级数据采集，相比传统方案提升3倍效率的同时降低40%的运维成本。未来可扩展方向包括：结合LLM实时生成反爬对抗策略利用HAI弹性扩缩容应对突发流量构建自动化验证码破解工作流通过持续融合AI与云原生技术，智能爬虫系统将突破传统数据采集的边界，为企业打造真正的数据智能基础设施。更多AI学习资料请添加学习助手领取资料礼包视频学习资料：从0开始开发超级AI智能体，干掉所有重