文本理解：使用 LLM 内置 tokenizer 将文本转为离散 ID，并生成对应的特征表示。
多模态理解：利用 SigLIP 编码器提取图像高维语义特征，展平成一维序列后通过理解适配器（understanding adaptor）映射至 LLM 输入空间。
图像生成：使用 VQ tokenizer 将图像编码为离散 ID，经过生成适配器（generation adaptor）处理后输入 LLM。图像生成预测通过随机初始化的生成头完成。

以上特征序列被拼接成统一的多模态输入，输入至一个共享的自回归Transformer。文本生成任务使用 LLM 的内建头，图像生成使用独立的预测头。整个架构不依赖专门的注意力 mask 设计，保持简洁。

Janus 采用三阶段训练策略，具体如下（如图 3 所示）：

阶段 I：训练适配器与生成头。冻结视觉编码器与 LLM，仅训练理解适配器、生成适配器和图像生成头。目的是建立图文之间的嵌入关联，并初步具备图像生成能力。
阶段 II：统一预训练。解冻 LLM，并混合三类数据（文本、理解、生成）进行预训练。图像生成训练先使用 ImageNet-1k 建立基础像素建模能力，再引入开放域文本图像数据增强开放场景的生成能力。
阶段 III：有监督微调。使用指令数据进行多轮对话能力增强，训练时仅冻结生成编码器。采用融合文本、图文和图像生成数据的混合任务训练，提升任务通用性。

Janus 作为自回归模型，采用标准的交叉熵损失函数进行训练：

其中 P_θ (⋅) 为由模型参数建模的条件概率。对于理解任务，仅在文本 token 上计算损失；对于生成任务，仅在图像 token 上计算。训练过程中不区分任务权重，保持整体设计的简洁性。

推理阶段采用标准的 “下一个token预测” 机制：

其中 l_c 为条件 logit，l_u 为非条件 logit，默认 scale s = 5。

Janus 架构的核心优势之一是良好的可扩展性：

1）多模态理解扩展：

2）图像生成扩展：

3）支持更多模态：

4. 实验

【注：Janus 与以 LLaVA 为代表的 VLM 具有相似的框架和训练范式：视觉编码器，语言模型，连接器（或投影器，本文称之为适配器，使用与 LLaVA-1.5 相同的两层 MLP）

】

语言模型：采用 DeepSeek-LLM（1.3B），最大序列长度为 4096。

视觉编码器：

图像处理：

训练平台：使用 HAI-LLM 分布式框架，在 16 台 A100（40GB）GPU 的集群上训练 7 天。

训练优化：

阶段一：

阶段二（统一预训练）：

文本数据：DeepSeek-LLM 的预训练文本；
图文数据：
- 维基百科 HowTo、WIT；
- 图像描述数据集（如 COCO、OpenImages、SBU 等）；
- 表格与图表数据：DeepSeek-VL；
- 图像生成数据：多种图文对数据集 + 2M 自建数据。
采样策略：前期更多 ImageNet 数据（前 120K 步），后期替换为复杂场景（后 60K 步）。