
用DeepSeek-MinerU打造新一代金融OCR分析系统:大模型赋能文档智能解析(上篇)
在金融数字化转型浪潮中,传统OCR技术已难以满足的需求。DeepSeek作为国产领先的金融大模型,与MinerU OCR引擎的深度融合,正在重新定义金融文档处理的边界。本文将详解基于"DeepSeek+MinerU"的混合架构设计。MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。MinerU诞生于书生-浦语的预训练过程中,我们将会集中
引言:当OCR遇到大模型的技术进化
在金融数字化转型浪潮中,传统OCR技术已难以满足非结构化数据深度挖掘的需求。DeepSeek作为国产领先的金融大模型,与MinerU OCR引擎的深度融合,正在重新定义金融文档处理的边界。本文将详解基于"DeepSeek+MinerU"的混合架构设计。
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。
一、技术选型对比:为什么选择DeepSeek?
1.1 大模型能力矩阵
模型 | 金融知识库 | 表格推理 | 指标关联 | 中文语境 |
---|---|---|---|---|
GPT-4 | ★★★☆ | ★★★☆ | ★★☆ | ★★☆ |
文心一言 | ★★★★ | ★★★ | ★★★☆ | ★★★★ |
DeepSeek | ★★★★☆ | ★★★★ | ★★★★☆ | ★★★★☆ |
MinerU独立模式 DeepSeek-MinerU混合模式
表格识别准确率 96% → 98.7%(↑2.7pp)
指标提取完整度 82% → 95%(↑13pp)
端到端耗时 8.2秒/页 → 6.5秒/页(↓21%)
二、混合架构设计:DeepSeek的三大创新点
2.1 系统架构图
graph TD
A[原始文档] --> B[MinerU OCR引擎]
B --> C{文档类型路由}
C -->|结构化数据| D[DeepSeek TableMaster]
C -->|非结构化文本| E[DeepSeek DocAnalyst]
D --> F[指标关联网络]
E --> F
F --> G[动态知识图谱]
G --> H[BI可视化]
G --> I[风险预警系统]
G --> J[自动报告生成]
核心模块说明:
-
TableMaster:专精表格理解的微调模型
-
支持跨页表格拼接
-
自动建立科目勾稽关系
-
现金流三表自动稽核
-
-
DocAnalyst:文本分析大模型
-
管理层讨论(MD&A)情绪分析
-
重大风险事项提取
-
自动生成附注摘要
-
-
动态知识图谱:
-
实时关联企业工商数据
-
行业基准指标对比
-
历史趋势分析
-
三、关键技术实现
本文的技术实现是居于腾讯Cloud Studio提供的AI算力平台上实现,一个良心的平台值得支持。
3.1注册登陆并开机
选择Deepseek R1开机。
3.2安装python环境
Downloading and Extracting Packages:
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
#
# To activate this environment, use
#
# $ conda activate mineru
#
# To deactivate an active environment, use
#
# $ conda deactivate
(base) root@VM-0-80-ubuntu:/workspace#
3.2下载及安装MinerU
conda create -n MinerU python=3.10
conda activate MinerU
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
3.2下载及模型
pip install modelscope wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py python download_models.py
运行magic-pdf -p demo1.pdf -o ./output,报错
(mineru) root@VM-0-80-ubuntu:/workspace/MinerU/demo# magic-pdf -p demo1.pdf -o ./output
Traceback (most recent call last):
File "/root/miniforge3/envs/mineru/bin/magic-pdf", line 5, in <module>
from magic_pdf.tools.cli import cli
File "/root/miniforge3/envs/mineru/lib/python3.10/site-packages/magic_pdf/tools/cli.py", line 12, in <module>
from magic_pdf.tools.common import do_parse, parse_pdf_methods
File "/root/miniforge3/envs/mineru/lib/python3.10/site-packages/magic_pdf/tools/common.py", line 13, in <module>
from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze
File "/root/miniforge3/envs/mineru/lib/python3.10/site-packages/magic_pdf/model/doc_analyze_by_custom_model.py", line 9, in <module>
from magic_pdf.model.batch_analyze import BatchAnalyze
File "/root/miniforge3/envs/mineru/lib/python3.10/site-packages/magic_pdf/model/batch_analyze.py", line 3, in <module>
import cv2
通过这两行命令解决
apt-get update
apt-get install libgl1-mesa-glx
正确运行结果:
至此,minerU已经搭建完成,待续...
更多推荐
所有评论(0)