项目分享|DeepSeek-OCR-2：视觉因果流驱动的新一代开源OCR模型

本文介绍了DeepSeek团队开源的新一代OCR模型DeepSeek-OCR-2，该模型采用创新的视觉因果流架构，通过DeepEncoder V2实现类人语义推理，仅需256-1120个视觉Token即可高效处理复杂文档。文章解析了其类人推理、高压缩率、低重复率等核心优势，以及金融、政务、医疗等应用场景，并提供了基于Transformers与vLLM的完整部署代码示例，包括文档转Markdown、

AladdinEdu

797人浏览 · 2026-03-27 10:00:00

AladdinEdu · 2026-03-27 10:00:00 发布

引言

光学字符识别（OCR）技术是连接物理文档与数字世界的关键桥梁，而传统OCR模型常受限于固定扫描顺序，在复杂版面、语义关联强的文档处理中易出现识别逻辑混乱、重复率高的问题。DeepSeek团队开源的DeepSeek-OCR-2彻底革新了这一现状，通过创新的视觉因果流架构，让AI像人类一样按语义逻辑阅读文档，在基准测试中实现91.09%的综合得分，同时大幅降低计算开销。本文将从项目概况、核心优势与应用、技术原理与部署实践三方面，全面解析这款新一代OCR模型。

项目概况

DeepSeek-OCR-2是DeepSeek团队于2026年1月开源的新一代多模态OCR模型，基于MIT许可协议发布，核心定位是解决复杂文档的高精度识别与结构化转换问题。该模型摒弃了传统OCR的固定光栅扫描模式，创新性地引入视觉因果流（Visual Causal Flow）机制，实现了从“机械扫描”到“语义推理”的范式转变，在保持高压缩率的同时显著提升了识别准确性与逻辑性。

模型采用Python开发，支持CUDA 11.8+与PyTorch 2.6.0环境，提供vLLM与Transformers两种推理方式，适配图像与PDF两种核心输入格式，可实现文档转Markdown、图像OCR、图表解析、目标定位等多样化功能。核心亮点包括动态分辨率适配、低视觉Token消耗（仅256-1120个）、支持多场景提示词定制等，在OmniDocBench v1.5等权威基准测试中表现优异，同时开源了完整的模型权重、代码与技术报告，便于开发者二次开发与落地应用。

核心优势与应用场景

核心技术优势

视觉因果流架构，类人语义推理：采用创新的DeepEncoder V2架构，用Qwen2-0.5B轻量级LLM替代传统CLIP编码器，通过因果流查询机制动态重排视觉Token，模拟人类“先标题、再正文、按逻辑跳转”的阅读习惯，彻底解决固定扫描导致的语义割裂问题。
高压缩率低开销，效率性能双优：仅需256-1120个视觉Token即可覆盖复杂文档页面，大幅降低下游LLM的计算负担；在OmniDocBench v1.5基准测试中综合得分91.09%，较前代提升3.73%，文档解析编辑距离优于Gemini-3 Pro。
低重复率高准确性，生产级实用价值：在实际场景中表现突出，在线用户日志图像识别重复率从6.25%降至4.17%，PDF数据生产场景重复率从3.69%降至2.88%，生成文本更干净准确，适合作为LLM训练数据或生产系统输入。
多场景适配，功能灵活丰富：支持图像与PDF两种输入类型，提供文档转Markdown、纯文本OCR、图表解析、目标定位等多种功能；支持动态分辨率适配与裁剪模式，可处理分栏、表格、手写体、古籍等复杂版面。
双推理框架支持，部署灵活：兼容vLLM与Transformers两种推理方式，vLLM推理支持高并发PDF处理，速度与前代持平，Transformers推理便于快速集成到现有Python项目，满足不同部署需求。
提示词定制化，适配多样化需求：支持多种提示词模板，可根据场景灵活切换，例如文档结构化转换、纯文本提取、图像详细描述等，无需修改代码即可实现功能定制。

典型应用场景

金融文档处理：精准识别票据、合同、财报、银行流水等复杂金融文档，自动转换为结构化Markdown格式，提取关键数据（金额、日期、条款），降低人工录入成本与错误率。
政务与档案数字化：处理多格式政务表单、老旧纸质档案、古籍文献等，适配扭曲、残缺文字与复杂排版，高效完成数字化归档，助力政务信息化与文化遗产保护。
医疗数据提取：识别手写病历、处方单、医学影像报告等医疗文档，准确提取患者信息、诊断结果、用药建议等关键内容，为智慧医疗系统提供可靠数据支撑。
办公自动化：将扫描件、PDF会议纪要、PPT文档等转换为可编辑文本或Markdown格式，支持图表解析与内容定位，提升文档整理、信息检索效率，无缝集成到办公流水中。
LLM训练数据清洗：作为高质量数据预处理工具，将非结构化图像/PDF文档转换为干净、低重复率的文本数据，为大语言模型训练提供优质语料，降低数据清洗成本。
开发者工具集成：通过Transformers API快速集成到自有系统，为RAG、智能问答、文档管理等应用提供OCR能力，适配企业级与个人开发者的多样化需求。

技术原理与部署实践

核心技术原理

DeepSeek-OCR-2的核心创新集中在DeepEncoder V2架构与三级训练流程，实现了视觉编码与语义推理的深度融合：

DeepEncoder V2架构：由视觉分词器与LLM编码器两部分组成。视觉分词器基于SAM-base+卷积层，将图像转换为视觉Token；LLM编码器（Qwen2-0.5B）引入可学习查询Token，视觉Token间采用双向注意力保持全局感知，查询Token采用因果注意力确保语义顺序，实现视觉Token的动态重排。
三级训练流程：第一阶段完成编码器预训练，获得特征提取、Token压缩与重排序基础能力；第二阶段通过查询增强，强化Token重排序与视觉知识压缩能力；第三阶段冻结编码器，仅优化解码器，在相同计算量下提升数据吞吐量。
推理流程：输入图像经视觉分词器转换为初始视觉Token，编码器通过因果流查询对Token进行语义重排，生成符合人类阅读逻辑的有序序列，最后解码器根据提示词完成相应任务（如结构化转换、文本提取），输出结果并保存。

环境搭建与部署实践

1. 环境准备（CUDA 11.8+）

# 克隆项目仓库
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git
cd DeepSeek-OCR-2

# 创建并激活conda环境
conda create -n deepseek-ocr2 python=3.12.9 -y
conda activate deepseek-ocr2

# 安装PyTorch与依赖（CUDA 11.8版本）
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

# 安装vLLM（需提前下载对应whl文件）
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

# 安装其他依赖与flash-attention
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

2. 核心推理代码示例

示例1：Transformers推理（文档转Markdown）

from transformers import AutoModel, AutoTokenizer
import torch
import os

# 设置使用的GPU
os.environ["CUDA_VISIBLE_DEVICES"] = '0'

# 加载模型与分词器
model_name = 'deepseek-ai/DeepSeek-OCR-2'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name,
    _attn_implementation='flash_attention_2',
    trust_remote_code=True,
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# 配置输入参数
prompt = "<image>\n<|grounding|>Convert the document to markdown. "  # 文档转Markdown提示词
image_file = 'your_document.jpg'  # 输入图像路径
output_path = './ocr_results'  # 输出目录

# 执行推理
res = model.infer(
    tokenizer=tokenizer,
    prompt=prompt,
    image_file=image_file,
    output_path=output_path,
    base_size=1024,
    image_size=768,
    crop_mode=True,  # 启用裁剪模式，处理大图像
    save_results=True  # 保存结果到输出目录
)

# 打印结果
print("OCR结果（Markdown格式）：")
print(res)

示例2：vLLM推理（PDF高并发处理）

# 1. 修改配置文件，设置输入/输出路径等参数
cd DeepSeek-OCR2-master/DeepSeek-OCR2-vllm
# 编辑config.py，修改INPUT_PATH（PDF输入目录）、OUTPUT_PATH（结果输出目录）等

# 2. 执行PDF高并发推理
python run_dpsk_ocr2_pdf.py

# 3. 图像流式输出推理（适合单张/少量图像）
python run_dpsk_ocr2_image.py

# 4. 基准测试批量评估（OmniDocBench v1.5等）
python run_dpsk_ocr2_eval_batch.py

示例3：不同场景提示词使用

# 1. 纯文本OCR（无格式）
prompt = "<image>\nFree OCR. "

# 2. 图像详细描述
prompt = "<image>\nDescribe this image in detail. "

# 3. 图表解析
prompt = "<image>\nParse the figure. "

# 4. 目标定位（查找特定内容）
prompt = "<image>\nLocate <|ref|>关键信息<|/ref|> in the image. "

# 执行推理（其余代码与示例1一致）
res = model.infer(tokenizer=tokenizer, prompt=prompt, image_file=image_file, output_path=output_path)

注意事项

环境依赖：需严格匹配CUDA 11.8+与PyTorch 2.6.0版本，vLLM推理需提前下载对应CUDA版本的whl文件，避免版本不兼容问题。
硬件要求：推荐使用支持CUDA的GPU（显存≥16GB），处理超大型PDF或批量图像时需确保显存充足，可通过调整image_size或关闭crop_mode降低显存占用。
场景适配：处理文本密度极高的报纸类文档时识别效果可能受限，可通过增加局部裁剪数量或补充训练样本优化；手写体识别效果依赖文本清晰度，建议保证图像分辨率≥72dpi。
提示词优化：不同场景需使用对应提示词模板，结构化转换推荐使用<|grounding|>标记，纯文本提取使用Free OCR，可根据实际效果微调提示词内容。