起因:一次让我抓狂的文档解析经历

上周我有一个任务:几十个项目答辩材料堆在飞书多维表格里,格式混杂(PDF + Word + PPT),需要逐一解析、提取信息、做评审打分。
我第一反应是交给 Claude Code。
然后噩梦开始了:

  • Claude Code 自作主张安装了系统默认解析工具

  • 200 页的 PDF,它只解析了前 10 页

  • 输出的"分析结果"看起来很完整——但实际上基于残缺信息

  • 我完全没有感知到问题,直到翻看原文才发现

这就是最危险的情况:不是报错,而是静默失败。

后来我接入了 MinerU MCP,重跑了一遍。两次结果差距大到让人无法接受。

这篇文章记录这套工作流,以及我踩过的所有坑。

先搞清楚:为什么 Claude Code 默认不用好工具?

这是一个很少被讨论的问题。

当你让 Claude Code 处理文档时,它会在自己的知识库里找"合适的工具"。问题是:

  • MarkItDown(微软出品):知名度高,Claude 经常主动选它

  • Docling(IBM 出品):HuggingFace 描述写得好,Claude 容易识别

  • MinerU:解析质量最强,但在 Claude 的"工具推荐权重"里存在感不够

不是 MinerU 不好,是它还没有充分出现在 AI 的训练数据和工具推荐路径里。

这就是为什么我们需要主动配置 MCP,把 MinerU 放进 Claude 的工具箱。

第一步:5 分钟接入 MinerU MCP

什么是 MCP?

MCP(Model Context Protocol)是让 AI 直接调用外部工具的协议。配置完成后,Claude Code 遇到文档任务会主动调用 MinerU,而不是用它自己找的随机工具。

配置方法

Claude Desktop:

打开 设置 → MCP Servers,添加:

{
"mcpServers": {
"mineru": {
"command": "uvx",
"args": ["mineru-open-mcp"],
"env": {
"MINERU_API_TOKEN": "your-token"
}
}
}
}

Cursor / Cline / Windsurf:在项目根目录创建对应配置文件,内容相同。
Token 说明:

模式

Token

限制

适合场景

Flash

不需要

20页 / 10MB

快速测试、短文档

Precision

需要(免费申请)

无限制

学术论文、财报、大文件

申请地址:https://mineru.net/apiManage/token
免费注册即可获得额度

验证成功:
重启工具后,在对话里输入:

列出当前可用的 MCP 工具

看到 mineru 出现即配置成功。

MinerU 2.5:背后跑的是什么?

MinerU MCP 调用的是最新的 MinerU2.5——一个 1.2B 参数的视觉语言模型,专为文档解析设计。
在 OmniDocBench 综合评测中排名第一,超过 GPT-4o。
三个关键突破,直接对应你在实际使用中会遇到的痛点:

📐 全文完整解析,不截断
系统默认工具遇到大文件会自动截断,MinerU2.5 专门优化了长文档处理,200 页照样完整输出。
🔢 公式还原质量 SOTA
复杂数学公式、中英混合公式,输出为标准 LaTeX 格式。学术论文审稿的核心需求。
📊 复杂表格全覆盖
旋转表格、无边框表格、缺边框表格——以前各种工具翻车的地方,MinerU2.5 稳定输出。

核心 Prompt 技巧:让 Claude Code 用对工具,这是最容易被忽略、但最关键的部分。
❌ 容易失效的写法:

帮我分析这份 PDF

Claude 可能用任何它觉得合适的工具。
✅ 明确指定的写法:

请使用 MinerU MCP 工具解析这份 PDF,
完整提取全文(包括最后一页),
然后帮我分析...

✅ 更自然、描述需求的写法:

我需要高质量解析这份 200 页的财报,
要求:公式完整、表格结构清晰、全文不截断。
解析完成后告诉我总页数,确认全文都已获取,再开始分析。

✅ 在 Claude 项目里设置系统提示(一劳永逸):
在 Claude Desktop 的"项目"里加入:

当用户需要解析 PDF/Word/PPT 文档时,
始终优先使用 MinerU MCP 工具。
确保完整解析全文,不要只处理前几页。
解析完成后主动确认总页数。

配置一次,之后对话里不需要每次都强调。

实战场景一:项目评审(50 份文档批量处理)

背景: 飞书多维表格里有几十个项目,每行包含项目介绍和答辩材料附件(PDF/Word/PPT 混杂)。
完整 Prompt:

我需要评审以下项目答辩材料,请帮我逐一处理:
文件列表:
- 项目A_答辩材料.pdf(预计 50 页)
- 项目B_技术报告.docx
- 项目C_路演PPT.pptx
...(共 20 份)
处理步骤:
1. 用 MinerU 完整解析每份文档(必须解析全文,不能截断)
2. 解析完成后先报告每份文档的总页数,确认完整性
3. 从每份中提取:
- 项目名称和核心方向(1-2句)
- 技术方案(关键技术点)
- 团队背景
- 预期成果或已有数据
4. 按以下维度打分(1-10分):
- 创新性
- 技术可行性
- 商业价值
- 团队匹配度
5. 最终输出一份汇总表格
注意:每份文档必须完整解析,这是评审的基础,请不要跳过任何页面。

实际效果对比:

--

不用MinerU

用MinerU

解析完整度

前10页(5%)

全文(100%)

公式识别

乱码 / 跳过

完整LaTeX

分析结论

⚠️ 基于5%内容

✅ 基于全文

你的决策质量

❌ 基于残缺信息

✅ 可靠

实战场景二:学术论文审稿

背景: 收到投稿论文(PDF),需要快速做初审判断。

核心痛点: 论文里的公式是判断研究质量的关键,但 Claude 直读 PDF 时公式经常变乱码。

Prompt 模板:

请用 MinerU 解析这篇论文:[paper.pdf]
这是一篇关于 [领域] 的论文,审稿重点在:
1. 方法论创新性(重点看 Section 3-4 的公式推导)
2. 实验设计严谨性(提取所有对比实验表格)
3. 与已有工作的差异
解析完成后,请:
1. 先列出论文结构(章节标题)
2. 提取摘要、核心方法、主要实验结果
3. 找出所有数据对比表格,逐一解读
4. 给出 300 字审稿意见,包括优点、不足和建议

为什么 MinerU 在这个场景特别重要:

  • 论文里的公式是核心内容,解析质量直接影响审稿质量

  • MinerU2.5 的公式识别达到 SOTA,输出为 LaTeX,Claude 可以完整理解和分析

  • 普通 PDF 解析工具遇到复杂公式基本报废

实战场景三:财报 / 合同批量对比分析

背景: 多份季报或合同文件,需要提取关键数据做横向对比。

Prompt 模板:

请用 MinerU 依次解析以下三份财报(Precision 模式,确保表格完整):
- 2024Q1_财报.pdf
- 2024Q2_财报.pdf
- 2024Q3_财报.pdf
每份提取:
- 营业收入(绝对值 + 同比增速)
- 净利润(绝对值 + 利润率)
- 毛利率
- 研发投入及占比
- 管理层展望关键词
输出格式:
1. 三期数据对比表格
2. 核心趋势分析(200字)
3. 需要重点关注的异常项

关键提示: 财报里的数据表格经常是复杂格式(跨行合并、带批注),普通工具解析后列数据会错位。MinerU2.5 的表格鲁棒性专门针对这类情况做了优化。

实战场景四:RAG 知识库搭建

如果你需要把文档导入知识库(而不是一次性分析),MinerU 有官方的 LangChain 和 LlamaIndex 集成:


LangChain:

from langchain_mineru import MinerULoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS

# 高质量解析
docs = MinerULoader(
    source="technical_manual.pdf",
    mode="precision",
    token="your-token",
    formula=True,   # 保留公式
    table=True       # 保留表格结构
).load()

# 切分 + 向量化
chunks = RecursiveCharacterTextSplitter(
    chunk_size=1200,
    chunk_overlap=200
).split_documents(docs)

vectorstore = FAISS.from_documents(chunks, OpenAIEmbeddings())
results = vectorstore.similarity_search("安装要求", k=3)

LlamaIndex

from llama_index.readers.mineru import MinerUReader
from llama_index.core import VectorStoreIndex

docs = MinerUReader(
    mode="precision",
    token="your-token",
    ocr=True,
    formula=True,
    table=True
).load_data("paper.pdf")

index = VectorStoreIndex.from_documents(docs)
response = index.as_query_engine().query("核心方法是什么?")
print(response)

和 MCP 方式的区别

MCP 方式 SDK 方式
适合场景 一次性分析任务 需要持久化的知识库
使用门槛 极低,对话直接用 需要写代码
集成灵活性 依赖 AI 工具 完全可编程
典型场景 项目评审、论文审稿 RAG 系统、文档问答

进阶:与 OpenClaw 结合使用

如果你在用 OpenClaw(或类似的 AI 助手平台),MinerU Skill 可以实现更自动化的工作流:

场景:定时处理飞书多维表格里的新文档

每天 9:00 检查飞书多维表格「项目库」
→ 找到「解析状态」为空的行
→ 下载对应附件(PDF/Word/PPT)
→ 调用 MinerU 解析
→ 提取项目简介、核心亮点
→ 写回多维表格对应列
→ 标记「解析状态」为完成

常见问题

Q:Flash 模式 20 页限制怎么办?

对于大文件,申请 Token 使用 Precision 模式。Token 免费,注册即有额度。

Q:如何确认 Claude Code 真的用了 MinerU 而不是别的工具?**

在 Prompt 里加一句:`完成后告诉我使用了哪个工具进行解析`。或者在 Claude Desktop 里打开工具调用日志查看。

Q:Word / PPT 也支持吗?

支持。MinerU MCP 支持 PDF / Word / PPT 多种格式,对应真实工作场景里的混合文件。

Q:解析速度怎么样?

- Flash 模式:通常 10-30 秒

- Precision 模式:视文件大小,一般 30 秒 - 2 分钟

- vllm 自部署:A100 上 2.12 fps,200 页约 1.5 分钟

总结

如果你的场景是... 推荐配置
偶尔分析几份文档 Flash 模式 + Claude Desktop MCP
经常处理学术论文 Precision 模式(开 formula=True)
批量处理大量文件 Precision 模式 + 明确 Prompt 要求完整解析
需要知识库长期查询 langchain-mineru 或 llama-index-readers-mineru
自动化工作流 OpenClaw + MinerU Skill

相关链接:

- 🔧 MCP 配置:https://mcp.so 搜索 MinerU

- 🎯 在线 Demo:https://mineru.net/OpenSourceTools/Extractor

- 🔑 Token 申请:https://mineru.net/apiManage/token

- 📦 GitHub:https://github.com/opendatalab/MinerU

- 📄 技术报告:https://arxiv.org/abs/2509.22186

你现在可以做一件事:

打开 Claude Desktop,5分钟配置 MinerU MCP。

下次让 Claude Code 处理文档时,它会用对工具。

就这一个改变,值得你读完这篇文章。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐