DeepSeek-OCR-2保姆级教程：一键部署，轻松识别PDF/图片文字

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-OCR-2镜像，实现高效OCR文字识别功能。该镜像支持一键部署，可快速搭建PDF/图片文字识别环境，适用于文档数字化、发票识别等场景，显著提升办公自动化效率。

duck_1984

381人浏览 · 2026-04-26 05:15:41

duck_1984 · 2026-04-26 05:15:41 发布

DeepSeek-OCR-2保姆级教程：一键部署，轻松识别PDF/图片文字

1. 引言

1.1 为什么选择DeepSeek-OCR-2

在日常工作和学习中，我们经常需要从PDF文档或图片中提取文字内容。传统OCR工具往往存在识别准确率低、排版混乱、无法理解复杂文档结构等问题。DeepSeek-OCR-2作为新一代智能OCR模型，通过创新的DeepEncoder V2方法，能够动态理解文档内容并保持原始排版结构，大幅提升了识别准确率。

1.2 本教程能带给你什么

本教程将带你从零开始，一步步完成DeepSeek-OCR-2的部署和使用。你将学会：

如何快速搭建DeepSeek-OCR-2运行环境
使用Web界面轻松识别PDF和图片中的文字
通过Python API实现批量处理自动化
解决常见安装和使用问题

2. 环境准备与快速部署

2.1 系统要求

在开始前，请确保你的系统满足以下要求：

操作系统：Windows/Linux/macOS
Python版本：3.12.9
GPU：NVIDIA显卡（推荐显存≥8GB）
磁盘空间：至少10GB可用空间

2.2 一键部署步骤

创建并激活conda环境：

conda create -n deepseek-ocr2 python=3.12.9 -y
conda activate deepseek-ocr2

安装基础依赖：

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
pip install -r requirements.txt

安装flash-attn（Windows用户特别注意）：

pip install flash-attn==2.7.3 --no-build-isolation

Windows用户提示：如果直接安装失败，可以从这个地址下载预编译的whl文件手动安装。

3. 快速上手：Web界面使用

3.1 启动Web服务

完成环境配置后，运行以下命令启动Web服务：

cd DeepSeek-OCR2-master/DeepSeek-OCR2-hf
python run_dpsk_ocr2.py

首次运行会自动下载模型文件（约5GB），请确保网络畅通。模型默认下载到：

C:\Users\用户名\.cache\huggingface\hub\models--deepseek-ai--DeepSeek-OCR-2\snapshots\aaa02xxxxxx

3.2 使用Web界面识别文档

在浏览器中打开Web界面（通常为http://localhost:7860）
点击"上传PDF"按钮选择文件
点击"提交"按钮开始识别
等待处理完成后，可查看识别结果并下载文本

识别效果展示：

保持原始文档排版结构
支持中英文混合识别
准确率高达91%以上（OmniDocBench v1.5评测）

4. 进阶使用：Python API开发

4.1 基础API调用

以下是一个简单的Python调用示例：

import os
import torch
from transformers import AutoModel, AutoTokenizer

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

model_path = "你的模型路径"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_path,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
).to("cuda").eval()

prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = "你的图片路径"
output_path = "输出目录"

res = model.infer(
    tokenizer,
    prompt=prompt,
    image_file=image_file,
    output_path=output_path,
    base_size=1024,
    image_size=768,
    crop_mode=True,
    save_results=True
)

4.2 批量处理与自动化

我们提供了一个封装好的OCR处理类，支持批量处理图片和PDF：

ocr = DeepSeekOCR("模型路径")

# 单张图片识别
ocr.ocr_image("图片路径", "输出目录")

# 批量识别文件夹内所有图片
ocr.ocr_folder("图片文件夹路径", "输出目录")

功能特点：

自动重命名输出文件
支持多种图片格式（jpg/png/bmp/tiff）
将结果转换为纯文本格式
提供详细的处理计时信息

5. 常见问题与解决方案

5.1 安装问题

问题1：flash-attn安装失败

解决方案：使用预编译的whl文件手动安装

问题2：CUDA out of memory

解决方案：减小base_size和image_size参数值

5.2 使用问题

问题1：识别结果不准确

解决方案：确保图片清晰度高，文字方向正确

问题2：处理速度慢

解决方案：关闭save_results选项可提升速度

6. 总结

DeepSeek-OCR-2作为新一代OCR模型，在识别准确率、排版保持和易用性方面都有显著提升。通过本教程，你已经掌握了从环境搭建到实际应用的全流程。无论是通过Web界面快速识别文档，还是通过Python API实现批量处理自动化，DeepSeek-OCR-2都能满足你的需求。

下一步建议：

尝试处理不同类型的文档（表格、发票、手写体等）
探索模型的高级参数调优
将OCR功能集成到你的工作流程中

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

DeepSeek API 稳定性治理：从日志别名到网关熔断的工程实践

DeepSeek技术社区

Agent工具编排中的结构化输出陷阱：为什么你的JSON解析总失败？

DeepSeek技术社区

RAG 混合检索的三大误区：为什么你的 DeepSeek-V4 知识库问答总漏关键文档

DeepSeek技术社区

所有评论(0)

查看更多评论

duck_1984

@weixin_33173126

已为社区贡献21条内容

DeepSeek-OCR-2保姆级教程：一键部署，轻松识别PDF/图片文字

duck_1984

DeepSeek-OCR-2保姆级教程：一键部署，轻松识别PDF/图片文字

1. 引言

1.1 为什么选择DeepSeek-OCR-2

1.2 本教程能带给你什么

2. 环境准备与快速部署

2.1 系统要求

2.2 一键部署步骤

3. 快速上手：Web界面使用

3.1 启动Web服务

3.2 使用Web界面识别文档

4. 进阶使用：Python API开发

4.1 基础API调用

4.2 批量处理与自动化

5. 常见问题与解决方案

5.1 安装问题

5.2 使用问题

6. 总结

所有评论(0)

温馨提示：您尚未绑定手机号

duck_1984