引言:当OCR遇到大模型的技术进化

       在金融数字化转型浪潮中,传统OCR技术已难以满足非结构化数据深度挖掘的需求。DeepSeek作为国产领先的金融大模型,与MinerU OCR引擎的深度融合,正在重新定义金融文档处理的边界。本文将详解基于"DeepSeek+MinerU"的混合架构设计。

       MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

一、技术选型对比:为什么选择DeepSeek?

1.1 大模型能力矩阵

模型 金融知识库 表格推理 指标关联 中文语境
GPT-4 ★★★☆ ★★★☆ ★★☆ ★★☆
文心一言 ★★★★ ★★★ ★★★☆ ★★★★
DeepSeek ★★★★☆ ★★★★ ★★★★☆ ★★★★☆
               MinerU独立模式   DeepSeek-MinerU混合模式
表格识别准确率       96%               → 98.7%(↑2.7pp)
指标提取完整度       82%               → 95%(↑13pp)
端到端耗时          8.2秒/页           → 6.5秒/页(↓21%)

 二、混合架构设计:DeepSeek的三大创新点

2.1 系统架构图

graph TD
    A[原始文档] --> B[MinerU OCR引擎]
    B --> C{文档类型路由}
    C -->|结构化数据| D[DeepSeek TableMaster]
    C -->|非结构化文本| E[DeepSeek DocAnalyst]
    D --> F[指标关联网络]
    E --> F
    F --> G[动态知识图谱]
    G --> H[BI可视化]
    G --> I[风险预警系统]
    G --> J[自动报告生成]
核心模块说明:
  1. TableMaster:专精表格理解的微调模型

    • 支持跨页表格拼接

    • 自动建立科目勾稽关系

    • 现金流三表自动稽核

  2. DocAnalyst:文本分析大模型

    • 管理层讨论(MD&A)情绪分析

    • 重大风险事项提取

    • 自动生成附注摘要

  3. 动态知识图谱

    • 实时关联企业工商数据

    • 行业基准指标对比

    • 历史趋势分析

三、关键技术实现

        本文的技术实现是居于腾讯Cloud Studio提供的AI算力平台上实现,一个良心的平台值得支持。

3.1注册登陆并开机

        选择Deepseek R1开机。

3.2安装python环境

Downloading and Extracting Packages:
                                                                                                                                                      
Preparing transaction: done                                                                                                                           
Verifying transaction: done                                                                                                                           
Executing transaction: done                                                                                                                           
#                                                                                                                                                     
# To activate this environment, use                                                                                                                   
#                                                                                                                                                     
#     $ conda activate mineru                                                                                                                         
#                                                                                                                                                     
# To deactivate an active environment, use                                                                                                            
#                                                                                                                                                     
#     $ conda deactivate                                                                                                                              
                                                                                                                                                      
(base) root@VM-0-80-ubuntu:/workspace#   

3.2下载及安装MinerU

conda create -n MinerU python=3.10

conda activate MinerU

pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

3.2下载及模型

pip install modelscope wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py python download_models.py

运行magic-pdf -p demo1.pdf -o ./output,报错

(mineru) root@VM-0-80-ubuntu:/workspace/MinerU/demo# magic-pdf -p demo1.pdf -o ./output
Traceback (most recent call last):
  File "/root/miniforge3/envs/mineru/bin/magic-pdf", line 5, in <module>
    from magic_pdf.tools.cli import cli
  File "/root/miniforge3/envs/mineru/lib/python3.10/site-packages/magic_pdf/tools/cli.py", line 12, in <module>
    from magic_pdf.tools.common import do_parse, parse_pdf_methods
  File "/root/miniforge3/envs/mineru/lib/python3.10/site-packages/magic_pdf/tools/common.py", line 13, in <module>
    from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze
  File "/root/miniforge3/envs/mineru/lib/python3.10/site-packages/magic_pdf/model/doc_analyze_by_custom_model.py", line 9, in <module>
    from magic_pdf.model.batch_analyze import BatchAnalyze
  File "/root/miniforge3/envs/mineru/lib/python3.10/site-packages/magic_pdf/model/batch_analyze.py", line 3, in <module>
    import cv2

通过这两行命令解决

apt-get update
apt-get install libgl1-mesa-glx
正确运行结果:

至此,minerU已经搭建完成,待续...

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐