1. 摘要

DeepSeek-VL2是一系列先的大型混合(MoE)视觉语言模型,比其前身DeepSeek-VL有了著改。DeepSeek-VL2在各种任中都表出卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/表理解和视觉。我的模型系列由三个成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,他们之间的主要区别在于基础LLM。

  1. DeepSeek-VL2-tiny基于DeepSeekMoE-3B 构建(总激活参数为 1.0B)
  2. DeepSeek-VL2-small基于DeepSeekMoE-16B 构建(总激活参数为 2.8B)
  3. DeepSeek-VL2 基于DeepSeekMoE-27B 构建(总激活参数为 4.5B)

2. 模型架构

  1. 核心模块:视觉编码器、视觉-语言适配器、专家混合语言模型。
  2. 动态分块策略:将高分辨率图像分割为块,通过共享的视觉Transformer处理,保留局部注意力优势。
  3. 视觉-语言适配器:通过像素洗牌操作压缩视觉标记,并引入特殊标记进行视觉序列处理。
  4. DeepSeekMoE LLM:采用多头潜在注意力机制(MLA)和稀疏计算技术,提升推理效率。

3. 数据构建

  1. 对齐数据:使用ShareGPT4V数据集进行视觉-语言对齐。
  2. 预训练数据:结合视觉-语言和纯文本数据,增强多语言能力和任务多样性。
  3. 监督微调数据:通过重新生成回答和清理数据,提升模型在OCR、文档理解、表格/图表理解、推理等任务中的表现。

4. 训练方法

  1. 三阶段训练流程:视觉-语言对齐、视觉-语言预训练、监督微调。
  2. 超参数和基础设施:使用HAI-LLM平台进行高效训练,结合流水线并行、张量并行和专家并行策略。

基础设施:由16/33/42个节点组成的集群在7/10/14天内完成,每个节点配备8个NVIDIA A100 GPU。

5. 评估

在多个基准测试中表现优异,特别是在OCR、文档理解、图表解释等任务上。

6. 本地部署

6.1 程序下载

git clone git@github.com:deepseek-ai/DeepSeek-VL2.git

6.2 安装

pip install -e .

6.3 模型下载

https://hf-mirror.com/deepseek-ai/deepseek-vl2-tiny/tree/main

6.4 Gradio Demo

pip install -e .[gradio]

# vl2-tiny, 3.37B-MoE in total, activated 1B, can be run on a single GPU < 40GB

CUDA_VISIBLE_DEVICES=2 python web_demo.py \

--model_name "deepseek-ai/deepseek-vl2-tiny"  \

--port 37914

# vl2-small, 16.1B-MoE in total, activated 2.4B

# If run on A100 40GB GPU, you need to set the `--chunk_size 512` for incremental prefilling for saving memory and it might be slow.

# If run on > 40GB GPU, you can ignore the `--chunk_size 512` for faster response.

CUDA_VISIBLE_DEVICES=2 python web_demo.py \

--model_name "deepseek-ai/deepseek-vl2-small"  \

--port 37914 \

--chunk_size 512

# # vl27.5-MoE in total, activated 4.2B

CUDA_VISIBLE_DEVICES=2 python web_demo.py \

--model_name "deepseek-ai/deepseek-vl2"  \

--port 37914

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐