
大模型扫盲:deepseek多模态之Janus-Pro和JanusFlow框架
Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。
文章目录
- note
- 一、Janus-Pro:解耦视觉编码,实现多模态高效统一
-
- 和之前版本的区别
- 技术亮点
- 模型细节
- 数据扩展
- 模型训练参数对比
- 二、JanusFlow-1.3B:融合生成流与语言模型,重新定义多模态
-
- 技术亮点
- 模型细节
- Reference
一、Janus-Pro:解耦视觉编码,实现多模态高效统一
论文标题:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
论文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
7B 版本:https://huggingface.co/deepseek-ai/Janus-Pro-7B
1B 版本:https://huggingface.co/deepseek-ai/Janus-Pro-1B
Hugging Face 试用链接:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
前排提示,文末有大模型AGI-CSDN独家资料包哦!
和之前版本的区别
Janus 的前一个版本采用了三阶段训练过程:
- 阶段 I:重点训练适配器和图像头。
- 阶段 II:进行统一预训练。在此过程中,除理解编码器和生成编码器外,所有组件的参数都会被更新。
- 阶段 III:进行监督微调。在阶段 II 的基础上,进一步解锁理解编码器的参数。
然而,这种训练策略存在一些问题。通过进一步的实验,DeepSeek 研究团队发现这一策略并不最优,并导致了显著的计算效率低下。为解决此问题,他们在原有基础上进行了两项修改:
- 在阶段 I 延长训练时间:研究者增加了阶段 I 的训练步数,以确保在 ImageNet 数据集上得到充分的训练。他们经过研究发现,即使固定了大语言模型(LLM)的参数,该模型仍能有效地建模像素间的依赖关系,并根据类别名称生成合理的图像。
- 在阶段 II 进行重点训练:在阶段 II 中,研究者去除了 ImageNet 数据,直接使用标准的文本生成图像数据来训练模型,从而使模型能够基于详细的描述生成图像。这种重新设计的方法使得阶段 II 能够更高效地利用文本生成图像的数据,并显著提高了训练效率和整体性能。
Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。
技术亮点
- 视觉编码解耦:采用独立的路径分别处理多模态理解与生成任务,有效解决视觉编码器在两种任务中的功能冲突。
- 统一 Transformer 架构:使用单一的 Transformer 架构处理多模态任务,既简化了模型设计,又提升了扩展能力。
- 高性能表现
- 多模态理解:模型性能匹配甚至超越任务专用模型。
- 图像生成:高质量图像生成能力,适配 384x384 分辨率,满足多场景需求。
模型细节
- 视觉编码器:采用 SigLIP-L[1],支持 384x384 分辨率输入,捕捉图像细节。
- 生成模块:使用 LlamaGen Tokenizer[2],下采样率为 16,生成更精细的图像。
- 基础架构:基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 打造。
数据扩展
研究团队在 Janus 的训练数据上进行了扩展,涵盖了多模态理解和视觉生成两个方面:
- 多模态理解:对于阶段 II 的预训练数据,参考 DeepSeek-VL2 ,并增加了大约 9000 万条样本。样本包括图像标注数据集,以及表格、图表和文档理解的数据。
- 视觉生成:前一个版本的 Janus 使用的真实世界数据质量较差,且包含大量噪声,导致文本生成图像时不稳定,生成的图像质量较差。在 Janus-Pro 中,研究者加入了大约 7200 万条合成的美学数据样本,在统一预训练阶段,真实数据和合成数据的比例为 1:1。
模型训练参数对比
二、JanusFlow-1.3B:融合生成流与语言模型,重新定义多模态
论文标题:JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
论文地址:https://arxiv.org/pdf/2411.07975
技术亮点
- 架构简约且创新:无需复杂改造,直接将生成流融入大语言模型框架,简化了多模态建模流程。
- 图像生成能力优越:结合 Rectified Flow 与 SDXL-VAE[3],实现高质量 384x384 图像生成,广泛适配不同应用场景。
- 高灵活性与可扩展性:支持多任务扩展,成为统一多模态框架的优秀选择。
模型细节
- 视觉编码器:同样采用 SigLIP-L[4],确保图像细节捕捉能力。
- 生成模块:基于 Rectified Flow 与 SDXL-VAE,生成精细度更高的图像。
- 基础架构:构建于 DeepSeek-LLM-1.3b-base,结合预训练与监督微调后的 EMA 检查点,性能表现卓越。
读者福利:倘若大家对大模型抱有兴趣,那么这套大模型学习资料肯定会对你大有助益。
针对0基础小白:
如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
学习路上没有捷径,只有坚持。但通过学习大模型,你可以不断提升自己的技术能力,开拓视野,甚至可能发现一些自己真正热爱的事业。
最后,送给你一句话,希望能激励你在学习大模型的道路上不断前行:
If not now, when? If not me, who?
如果不是为了自己奋斗,又是为谁;如果不是现在奋斗,什么时候开始呢?
更多推荐
所有评论(0)