DeepSeek大爆出圈,现在连夜发布新模型——

多模态Janus-Pro-7B,发布即开源。

在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。

想必大家这几天完全被DeepSeek刷屏了吧。

它长时间霸榜热搜第一,甚至AI第一股英伟达直接被干崩了——最大跌幅近17%,一夜蒸发5890亿美元(约合人民币4.24万亿元),创下美股单日跌幅最大纪录。

而Deepseek神话还在继续,春节假期中全国人民都开始体验了,Deepseek服务器还一度卡到宕机。

将开源进行到底,Janus-Pro 问世

在美股一片惨嗥的同时,DeepSeek 再接再厉继续开源,发布了视觉模型 Janus-Pro。该模型是去年 10 月发布的 Janus 的升级版,在质量上实现了飞跃式提升。与此同时,DeepSeek 还发布了一款多模态理解模型 JanusFlow-1.3B。

Janus-Pro

Janus Pro 是基于之前的 Janus 开发的高级版。整体而言,Janus Pro 实现了三大改进:训练策略优化训练数据扩****展扩展到了更大模型。有了这些改进, Janus Pro 在多模态理解和文生图指令遵从能力都收获了显著提升 —— 在多个基准上超越了 DALL-E 3 与 Stable Diffusion,同时文生图的稳定性也得到了加强。此次,DeepSeek 一次性发布了 7B 和 1B 两个版本。

刚刚注册 𝕏 帐号的 DeepSeek 创始人梁文峰(目前还无法验证该帐号的真实性)也宣布了此消息。

已经有不少网友尝试过该模型了,比如生成一个看起来像网球的小鸟,绒毛形态十分逼真。

或者由「美丽的汉字」五个字符组成的图画:

这个同时兼具视觉理解和生成的模型着实再一次震惊了中外 AI 社区,毕竟这个表现如此卓越的模型仅有 7B 大小!

  • 论文标题:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

  • 论文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

  • 7B 版本:https://huggingface.co/deepseek-ai/Janus-Pro-7B

  • 1B 版本:https://huggingface.co/deepseek-ai/Janus-Pro-1B

  • Hugging Face 试用链接:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B

DeepSeek 如今正将其影响力从语言处理,扩展到计算机视觉领域。据随模型发布的技术论文介绍,Janus Pro 7B 在效率和多功能性方面经过精心设计,能够在一系列视觉任务中表现出色:从生成逼真的图像到执行复杂的视觉推理任务。

Janus-Pro 与其前身 Janus 在文本生成图像方面的对比

DeepSeek 还展示了 Janus Pro 7B 的性能指标。(左)Janus Pro 7B 在比其他多模态大模型参数更少的情况下,依然实现了较高的性能。(右)该模型在文本生成图像基准测试中也取得了最高的准确率,超越了竞争对手(包括 DALL・E 3 和 SD3-Medium)。

Janus-Pro 的多模态理解与视觉生成结果

DeepSeek 研究团队在他们的论文中表示:「Janus Pro 是一个高效的视觉模型系列,旨在实现性能与计算成本之间的平衡,能够在广泛的视觉任务中实现最先进的性能。」

以下为 Janus Pro 在多模态任务中的优良表现:

图片描述

文生图

\1. Janus Pro 架构

对效率的强调是 Janus Pro 7B 区别于其他大规模、高资源需求 AI 模型的关键优势。与一些最大且最耗资源的 AI 模型不同,Janus Pro 7B 通过其 70 亿参数设计,能够提供高水平的性能,同时避免了对庞大计算资源的需求。

Janus-Pro 的架构与 Janus 相同。如下图所示,整体架构的核心设计原则是将多模态理解与生成的视觉编码解耦。研究者应用独立的编码方法将原始输入转换为特征,这些特征随后由一个统一的自回归 Transformer 处理。

Janus-Pro 架构

\2. 训练策略优化

Janus 的前一个版本采用了三阶段训练过程:

  • 阶段 I:重点训练适配器和图像头。

  • 阶段 II:进行统一预训练。在此过程中,除理解编码器和生成编码器外,所有组件的参数都会被更新。

  • 阶段 III:进行监督微调。在阶段 II 的基础上,进一步解锁理解编码器的参数。

然而,这种训练策略存在一些问题。通过进一步的实验,DeepSeek 研究团队发现这一策略并不最优,并导致了显著的计算效率低下。

为解决此问题,他们在原有基础上进行了两项修改:

在阶段 I 延长训练时间:研究者增加了阶段 I 的训练步数,以确保在 ImageNet 数据集上得到充分的训练。他们经过研究发现,即使固定了大语言模型(LLM)的参数,该模型仍能有效地建模像素间的依赖关系,并根据类别名称生成合理的图像。

在阶段 II 进行重点训练:在阶段 II 中,研究者去除了 ImageNet 数据,直接使用标准的文本生成图像数据来训练模型,从而使模型能够基于详细的描述生成图像。这种重新设计的方法使得阶段 II 能够更高效地利用文本生成图像的数据,并显著提高了训练效率和整体性能。

\3. 数据扩展

研究团队在 Janus 的训练数据上进行了扩展,涵盖了多模态理解和视觉生成两个方面:

  • 多模态理解:对于阶段 II 的预训练数据,参考 DeepSeek-VL2 ,并增加了大约 9000 万条样本。样本包括图像标注数据集,以及表格、图表和文档理解的数据。

  • 视觉生成:前一个版本的 Janus 使用的真实世界数据质量较差,且包含大量噪声,导致文本生成图像时不稳定,生成的图像质量较差。在 Janus-Pro 中,研究者加入了大约 7200 万条合成的美学数据样本,在统一预训练阶段,真实数据和合成数据的比例为 1:1。

\4. 模型扩展

前一个版本的 Janus 通过使用 1.5B 的大语言模型(LLM)验证了视觉编码解耦的有效性。在 Janus-Pro 中,研究团队将模型扩展至 7B,并在其中详细列出了 1.5B 和 7B LLM 的超参数(见下表)。

他们观察到,当扩大 LLM 的规模时,无论是在多模态理解还是视觉生成任务中,损失函数的收敛速度相比于较小的模型都会有显著的提升。

这个发现进一步验证了该方法的强大可扩展性。

Janus-Pro 架构配置

Janus-Pro 训练的详细超参数

JanusFlow-1.3B

在发布 Janus Pro 的同时,DeepSeek 还发布了一个多模态理解模型 JanusFlow-1.3B。从名字也能看出来,参数量同样不高。

据介绍,JanusFlow 是一个将图像理解和生成统一在一个模型中的强大框架。其引入了一种极简主义架构,将自回归语言模型与校正流(rectified flow,一种生成建模的 SOTA 方法)相结合。

JanusFlow 的架构

DeepSeek 研究表明,校正流可以在大型语言模型框架内直接训练,无需进行复杂的架构修改。为了进一步提高统一模型的性能,他们还采用了两种关键策略:一是将理解和生成编码器解耦,二是在统一训练期间对齐它们的表征。

事实上, JanusFlow 的研究论文早在去年 11 月就已经发布。

  • 论文标题:JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

  • 论文地址:https://arxiv.org/pdf/2411.07975

当时的实验结果表明,JanusFlow 在不同的领域中都实现了与专门模型相当或更优异的性能,同时在标准基准上明显优于现有的统一方法。因此,可以说,这项研究代表着向更高效和多功能的视觉语言模型迈出的重要一步。下图展示了其一些基准测试结果数据以及生成结果。

DeepSeek 两连击:提升市场焦虑与竞争压力

Janus Pro 7B 的发布引发了不少讨论,比如 VentureBeat 认为:「Janus Pro 7B 的发布时机放大了其影响力。这是紧随 R1 模型和随之而来的市场动荡之后,它强化了这样的叙事:DeepSeek 是能够颠覆 AI 既定秩序的创新者。

该媒体还认为:「Janus Pro 7B 的开源性质会加剧这种颠覆。与之前的开源运动一样,这会让人们更容易使用高级 AI。大型科技公司以外的企业将受益:无需供应商锁定或高额费用即可获得顶级 AI。对于 AI 巨头来说,DeepSeek 构成了直接威胁:**他们的专有高级模型能否在免费、高质量的替代品面前生存下来?**当前的股市抛售情况表明投资者对此表示怀疑。」

对于 DeepSeek 正在给 AI 社区以及投资市场带来的影响,你有什么看法,请与我们分享。

在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐