Claude Code 分析我的文档,悄悄只读了前10页——这个坑99%的人不知道
文档解析工具选择对分析质量至关重要。文章通过作者处理飞书多维表格中混杂格式文档的经历,对比了不同工具的解析效果:ClaudeCode默认工具仅解析PDF前10页导致信息残缺,而MinerU2.5能完整处理200页文档并准确提取公式表格。文章详细介绍了5分钟配置MinerUMCP的方法、四种典型应用场景(项目评审、论文审稿、财报分析、知识库搭建)的prompt模板,以及如何避免常见解析陷阱。关键建议
起因:一次让我抓狂的文档解析经历
上周我有一个任务:几十个项目答辩材料堆在飞书多维表格里,格式混杂(PDF + Word + PPT),需要逐一解析、提取信息、做评审打分。
我第一反应是交给 Claude Code。
然后噩梦开始了:
-
Claude Code 自作主张安装了系统默认解析工具
-
200 页的 PDF,它只解析了前 10 页
-
输出的"分析结果"看起来很完整——但实际上基于残缺信息
-
我完全没有感知到问题,直到翻看原文才发现
这就是最危险的情况:不是报错,而是静默失败。
后来我接入了 MinerU MCP,重跑了一遍。两次结果差距大到让人无法接受。
这篇文章记录这套工作流,以及我踩过的所有坑。
先搞清楚:为什么 Claude Code 默认不用好工具?
这是一个很少被讨论的问题。
当你让 Claude Code 处理文档时,它会在自己的知识库里找"合适的工具"。问题是:
-
MarkItDown(微软出品):知名度高,Claude 经常主动选它
-
Docling(IBM 出品):HuggingFace 描述写得好,Claude 容易识别
-
MinerU:解析质量最强,但在 Claude 的"工具推荐权重"里存在感不够
不是 MinerU 不好,是它还没有充分出现在 AI 的训练数据和工具推荐路径里。
这就是为什么我们需要主动配置 MCP,把 MinerU 放进 Claude 的工具箱。
第一步:5 分钟接入 MinerU MCP

什么是 MCP?
MCP(Model Context Protocol)是让 AI 直接调用外部工具的协议。配置完成后,Claude Code 遇到文档任务会主动调用 MinerU,而不是用它自己找的随机工具。
配置方法
Claude Desktop:
打开 设置 → MCP Servers,添加:
{
"mcpServers": {
"mineru": {
"command": "uvx",
"args": ["mineru-open-mcp"],
"env": {
"MINERU_API_TOKEN": "your-token"
}
}
}
}
Cursor / Cline / Windsurf:在项目根目录创建对应配置文件,内容相同。
Token 说明:
|
模式 |
Token |
限制 |
适合场景 |
|---|---|---|---|
|
Flash |
不需要 |
20页 / 10MB |
快速测试、短文档 |
|
Precision |
需要(免费申请) |
无限制 |
学术论文、财报、大文件 |
申请地址:https://mineru.net/apiManage/token
免费注册即可获得额度
验证成功:
重启工具后,在对话里输入:
列出当前可用的 MCP 工具
看到 mineru 出现即配置成功。
MinerU 2.5:背后跑的是什么?
MinerU MCP 调用的是最新的 MinerU2.5——一个 1.2B 参数的视觉语言模型,专为文档解析设计。
在 OmniDocBench 综合评测中排名第一,超过 GPT-4o。
三个关键突破,直接对应你在实际使用中会遇到的痛点:
📐 全文完整解析,不截断
系统默认工具遇到大文件会自动截断,MinerU2.5 专门优化了长文档处理,200 页照样完整输出。
🔢 公式还原质量 SOTA
复杂数学公式、中英混合公式,输出为标准 LaTeX 格式。学术论文审稿的核心需求。
📊 复杂表格全覆盖
旋转表格、无边框表格、缺边框表格——以前各种工具翻车的地方,MinerU2.5 稳定输出。
核心 Prompt 技巧:让 Claude Code 用对工具,这是最容易被忽略、但最关键的部分。
❌ 容易失效的写法:
帮我分析这份 PDF
Claude 可能用任何它觉得合适的工具。
✅ 明确指定的写法:
请使用 MinerU MCP 工具解析这份 PDF,
完整提取全文(包括最后一页),
然后帮我分析...
✅ 更自然、描述需求的写法:
我需要高质量解析这份 200 页的财报,
要求:公式完整、表格结构清晰、全文不截断。
解析完成后告诉我总页数,确认全文都已获取,再开始分析。
✅ 在 Claude 项目里设置系统提示(一劳永逸):
在 Claude Desktop 的"项目"里加入:
当用户需要解析 PDF/Word/PPT 文档时,
始终优先使用 MinerU MCP 工具。
确保完整解析全文,不要只处理前几页。
解析完成后主动确认总页数。
配置一次,之后对话里不需要每次都强调。
实战场景一:项目评审(50 份文档批量处理)

背景: 飞书多维表格里有几十个项目,每行包含项目介绍和答辩材料附件(PDF/Word/PPT 混杂)。
完整 Prompt:
我需要评审以下项目答辩材料,请帮我逐一处理:
文件列表:
- 项目A_答辩材料.pdf(预计 50 页)
- 项目B_技术报告.docx
- 项目C_路演PPT.pptx
...(共 20 份)
处理步骤:
1. 用 MinerU 完整解析每份文档(必须解析全文,不能截断)
2. 解析完成后先报告每份文档的总页数,确认完整性
3. 从每份中提取:
- 项目名称和核心方向(1-2句)
- 技术方案(关键技术点)
- 团队背景
- 预期成果或已有数据
4. 按以下维度打分(1-10分):
- 创新性
- 技术可行性
- 商业价值
- 团队匹配度
5. 最终输出一份汇总表格
注意:每份文档必须完整解析,这是评审的基础,请不要跳过任何页面。
实际效果对比:
|
-- |
不用MinerU |
用MinerU |
|---|---|---|
|
解析完整度 |
前10页(5%) |
全文(100%) |
|
公式识别 |
乱码 / 跳过 |
完整LaTeX |
|
分析结论 |
⚠️ 基于5%内容 |
✅ 基于全文 |
|
你的决策质量 |
❌ 基于残缺信息 |
✅ 可靠 |
实战场景二:学术论文审稿
背景: 收到投稿论文(PDF),需要快速做初审判断。
核心痛点: 论文里的公式是判断研究质量的关键,但 Claude 直读 PDF 时公式经常变乱码。
Prompt 模板:
请用 MinerU 解析这篇论文:[paper.pdf]
这是一篇关于 [领域] 的论文,审稿重点在:
1. 方法论创新性(重点看 Section 3-4 的公式推导)
2. 实验设计严谨性(提取所有对比实验表格)
3. 与已有工作的差异
解析完成后,请:
1. 先列出论文结构(章节标题)
2. 提取摘要、核心方法、主要实验结果
3. 找出所有数据对比表格,逐一解读
4. 给出 300 字审稿意见,包括优点、不足和建议
为什么 MinerU 在这个场景特别重要:
-
论文里的公式是核心内容,解析质量直接影响审稿质量
-
MinerU2.5 的公式识别达到 SOTA,输出为 LaTeX,Claude 可以完整理解和分析
-
普通 PDF 解析工具遇到复杂公式基本报废
实战场景三:财报 / 合同批量对比分析
背景: 多份季报或合同文件,需要提取关键数据做横向对比。
Prompt 模板:
请用 MinerU 依次解析以下三份财报(Precision 模式,确保表格完整):
- 2024Q1_财报.pdf
- 2024Q2_财报.pdf
- 2024Q3_财报.pdf
每份提取:
- 营业收入(绝对值 + 同比增速)
- 净利润(绝对值 + 利润率)
- 毛利率
- 研发投入及占比
- 管理层展望关键词
输出格式:
1. 三期数据对比表格
2. 核心趋势分析(200字)
3. 需要重点关注的异常项
关键提示: 财报里的数据表格经常是复杂格式(跨行合并、带批注),普通工具解析后列数据会错位。MinerU2.5 的表格鲁棒性专门针对这类情况做了优化。
实战场景四:RAG 知识库搭建
如果你需要把文档导入知识库(而不是一次性分析),MinerU 有官方的 LangChain 和 LlamaIndex 集成:
LangChain:
from langchain_mineru import MinerULoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS
# 高质量解析
docs = MinerULoader(
source="technical_manual.pdf",
mode="precision",
token="your-token",
formula=True, # 保留公式
table=True # 保留表格结构
).load()
# 切分 + 向量化
chunks = RecursiveCharacterTextSplitter(
chunk_size=1200,
chunk_overlap=200
).split_documents(docs)
vectorstore = FAISS.from_documents(chunks, OpenAIEmbeddings())
results = vectorstore.similarity_search("安装要求", k=3)
LlamaIndex
from llama_index.readers.mineru import MinerUReader
from llama_index.core import VectorStoreIndex
docs = MinerUReader(
mode="precision",
token="your-token",
ocr=True,
formula=True,
table=True
).load_data("paper.pdf")
index = VectorStoreIndex.from_documents(docs)
response = index.as_query_engine().query("核心方法是什么?")
print(response)
和 MCP 方式的区别
| MCP 方式 | SDK 方式 | |
|---|---|---|
| 适合场景 | 一次性分析任务 | 需要持久化的知识库 |
| 使用门槛 | 极低,对话直接用 | 需要写代码 |
| 集成灵活性 | 依赖 AI 工具 | 完全可编程 |
| 典型场景 | 项目评审、论文审稿 | RAG 系统、文档问答 |
进阶:与 OpenClaw 结合使用
如果你在用 OpenClaw(或类似的 AI 助手平台),MinerU Skill 可以实现更自动化的工作流:
场景:定时处理飞书多维表格里的新文档
每天 9:00 检查飞书多维表格「项目库」
→ 找到「解析状态」为空的行
→ 下载对应附件(PDF/Word/PPT)
→ 调用 MinerU 解析
→ 提取项目简介、核心亮点
→ 写回多维表格对应列
→ 标记「解析状态」为完成
常见问题
Q:Flash 模式 20 页限制怎么办?
对于大文件,申请 Token 使用 Precision 模式。Token 免费,注册即有额度。
Q:如何确认 Claude Code 真的用了 MinerU 而不是别的工具?**
在 Prompt 里加一句:`完成后告诉我使用了哪个工具进行解析`。或者在 Claude Desktop 里打开工具调用日志查看。
Q:Word / PPT 也支持吗?
支持。MinerU MCP 支持 PDF / Word / PPT 多种格式,对应真实工作场景里的混合文件。
Q:解析速度怎么样?
- Flash 模式:通常 10-30 秒
- Precision 模式:视文件大小,一般 30 秒 - 2 分钟
- vllm 自部署:A100 上 2.12 fps,200 页约 1.5 分钟
总结
| 如果你的场景是... | 推荐配置 |
|---|---|
| 偶尔分析几份文档 | Flash 模式 + Claude Desktop MCP |
| 经常处理学术论文 | Precision 模式(开 formula=True) |
| 批量处理大量文件 | Precision 模式 + 明确 Prompt 要求完整解析 |
| 需要知识库长期查询 | langchain-mineru 或 llama-index-readers-mineru |
| 自动化工作流 | OpenClaw + MinerU Skill |
相关链接:
- 🔧 MCP 配置:https://mcp.so 搜索 MinerU
- 🎯 在线 Demo:https://mineru.net/OpenSourceTools/Extractor
- 🔑 Token 申请:https://mineru.net/apiManage/token
- 📦 GitHub:https://github.com/opendatalab/MinerU
- 📄 技术报告:https://arxiv.org/abs/2509.22186
你现在可以做一件事:
打开 Claude Desktop,5分钟配置 MinerU MCP。
下次让 Claude Code 处理文档时,它会用对工具。
就这一个改变,值得你读完这篇文章。
更多推荐



所有评论(0)