DeepSeek-VL2解读

这是一系列先进的大型混合专家(MoE)视觉语言模型，比其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在各种任务中都表现出卓越的能力，包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和，他们之间的主要区别在于基础LLM。基于DeepSeekMoE-3B 构建（

xuebodx

1072人浏览 · 2025-03-16 09:25:28

xuebodx · 2025-03-16 09:25:28 发布

1. 摘要

DeepSeek-VL2，这是一系列先进的大型混合专家(MoE)视觉语言模型，比其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在各种任务中都表现出卓越的能力，包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，他们之间的主要区别在于基础LLM。

DeepSeek-VL2-tiny基于DeepSeekMoE-3B 构建（总激活参数为 1.0B）
DeepSeek-VL2-small基于DeepSeekMoE-16B 构建（总激活参数为 2.8B）
DeepSeek-VL2 基于DeepSeekMoE-27B 构建（总激活参数为 4.5B）

2. 模型架构

核心模块：视觉编码器、视觉-语言适配器、专家混合语言模型。
动态分块策略：将高分辨率图像分割为块，通过共享的视觉Transformer处理，保留局部注意力优势。
视觉-语言适配器：通过像素洗牌操作压缩视觉标记，并引入特殊标记进行视觉序列处理。
DeepSeekMoE LLM：采用多头潜在注意力机制（MLA）和稀疏计算技术，提升推理效率。

3. 数据构建

对齐数据：使用ShareGPT4V数据集进行视觉-语言对齐。
预训练数据：结合视觉-语言和纯文本数据，增强多语言能力和任务多样性。
监督微调数据：通过重新生成回答和清理数据，提升模型在OCR、文档理解、表格/图表理解、推理等任务中的表现。

4. 训练方法

三阶段训练流程：视觉-语言对齐、视觉-语言预训练、监督微调。
超参数和基础设施：使用HAI-LLM平台进行高效训练，结合流水线并行、张量并行和专家并行策略。

基础设施：由16/33/42个节点组成的集群在7/10/14天内完成，每个节点配备8个NVIDIA A100 GPU。

5. 评估

在多个基准测试中表现优异，特别是在OCR、文档理解、图表解释等任务上。

6. 本地部署

6.1 程序下载

git clone git@github.com:deepseek-ai/DeepSeek-VL2.git

6.2 安装

pip install -e .

6.3 模型下载

https://hf-mirror.com/deepseek-ai/deepseek-vl2-tiny/tree/main

6.4 Gradio Demo

pip install -e .[gradio]

# vl2-tiny, 3.37B-MoE in total, activated 1B, can be run on a single GPU < 40GB

CUDA_VISIBLE_DEVICES=2 python web_demo.py \

--model_name "deepseek-ai/deepseek-vl2-tiny" \

--port 37914

# vl2-small, 16.1B-MoE in total, activated 2.4B

# If run on A100 40GB GPU, you need to set the `--chunk_size 512` for incremental prefilling for saving memory and it might be slow.

# If run on > 40GB GPU, you can ignore the `--chunk_size 512` for faster response.

CUDA_VISIBLE_DEVICES=2 python web_demo.py \

--model_name "deepseek-ai/deepseek-vl2-small" \

--port 37914 \

--chunk_size 512

# # vl27.5-MoE in total, activated 4.2B

CUDA_VISIBLE_DEVICES=2 python web_demo.py \

--model_name "deepseek-ai/deepseek-vl2" \

--port 37914

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

DeepSeek 提示词大全

DeepSeek技术社区

cover

【AI基础】使用LM Studio运行你的第一个本地LLM大模型（DeepSeek-R1-0528-Qwen3-8B）

DeepSeek技术社区

cover

Deepseek对JMeter 中的Beanshell 与 Groovy 进行了详细对比，结论是：大规模性能测试中，Groovy 几乎是唯一可行的选择

DeepSeek技术社区

所有评论(0)

查看更多评论

xuebodx

已为社区贡献11条内容