DeepSeek-TUI 也能读 PDF 了:Skill + MinerU CLI 终端文档解析实战
DeepSeek-TUI 没有多模态能力,无法直接读取 PDF。本文介绍通过 Skill + MinerU CLI 的替代方案,让终端 Agent 自动调用 mineru-open-api 完成文档解析,包含安装步骤、两种解析模式对比、实战演示和批量处理技巧。
DeepSeek-TUI 近期热度不小。100 万 token 上下文窗口、全终端操作体验——这些特性让它成为很多开发者的主力编码助手。但一个明显的缺口是:V4 没有多模态能力,无法直接"看"PDF、图片或文档。你丢给它一份论文 PDF,它只能回一句"我无法处理文件"。
MCP 方案理论上能补上这个缺口——通过 MinerU MCP Server 把文档解析能力接入 DeepSeek-TUI。但实际踩过坑的都知道,当前 DeepSeek-TUI 的 MCP 连接存在已知的不稳定性问题,经常连不上或超时。这条路暂时走不通。
换个思路。DeepSeek-TUI 内置了一套 Skill 系统——一种 Agent 指令包机制,可以让终端 Agent 学会执行特定的外部工具。安装一个 PDF 解析 Skill 后,Agent 就能自动调用 mineru-open-api CLI 完成文档解析,再把结果返回给你。整个过程不经过 MCP,直接走 CLI 域通信,绕开了 MCP 不稳定的瓶颈。
Skill 是什么
Skill 不是后台服务,也不是插件。它是一组指令文件(SKILL.md),告诉 Agent “当用户需要解析 PDF 时,你应该运行这条命令,然后读取输出”。Agent 读取 Skill 后,会在本地终端执行对应的 CLI 工具,通过标准的 stdin/stdout/stderr 管道交换数据。
你需要两个组件:mineru-open-api CLI(负责实际解析 PDF)和 tanis90/pdf-converter-mineru Skill(告诉 Agent 如何调用这个 CLI)。
第一步:安装 CLI
mineru-open-api 是一个零依赖的单二进制 CLI 工具,不需要 Python 或 Node.js 运行时。安装命令因系统而异。
Windows(PowerShell):
irm https://cdn-mineru.openxlab.org.cn/open-api-cli/install.ps1 | iex
Linux / macOS:
curl -fsSL https://cdn-mineru.openxlab.org.cn/open-api-cli/install.sh | sh
安装完成后,运行 mineru-open-api version 确认安装成功。
第二步:安装 Skill
两种方式可选。
方式一:用 DeepSeek-TUI 内置命令(推荐)
在 TUI 中直接输入:
/skill install github:tanis90/pdf-converter-mineru
DeepSeek-TUI 会自动从 GitHub 拉取仓库,放置到正确的 Skill 目录。
方式二:手动放置
克隆仓库到 DeepSeek-TUI 的全局 Skill 目录:
git clone https://github.com/tanis90/pdf-converter-mineru.git ~/.deepseek/skills/pdf-converter-mineru
确认目录结构是否正确:
~/.deepseek/skills/pdf-converter-mineru/SKILL.md
SKILL.md 是这个 Skill 的核心——它描述了能力范围、命令格式和参数规则。Agent 通过 load_skill 机制读取它,才知道遇到 PDF 时该做什么。
Skill 的工作流:两种模式
Skill 加载后,Agent 根据 SKILL.md 的指令,调用 mineru-open-api 的两种解析模式:
flash-extract 模式——免登录,零门槛。
- 无需 API Token,IP 限频防滥用
- 单文件最大 10 MB,不超过 20 页
- 输出 Markdown(公式和表格默认开启,OCR 默认关闭)
- 适合快速预览、小文件、Agent 自动摘要场景
extract 模式——高精度,需 Token。
- 需要设置
MINERU_TOKEN环境变量 - 单文件最大 200 MB,不超过 200 页
- 支持 Markdown、HTML、LaTeX、DOCX、JSON 多格式输出
- 支持批量处理、
--ocr扫描件识别、--pages指定页码范围 - 适合论文、合同、扫描版文档等对精度要求高的场景
Agent 的选择逻辑很直接:如果你只说"帮我看一下这个 PDF",Agent 自动走 flash-extract;如果你明确要求提取表格、保留公式或处理长文档,Agent 会检查是否配置了 Token,有则切到 extract 模式。
实战演示
场景一:读论文,做总结
你在 TUI 中输入:
帮我总结一下这篇论文的核心方法:arxiv_paper.pdf
Agent 的调用链路:
- 识别出你需要解析 PDF → 自动加载
pdf-converter-mineruSkill - 执行
mineru-open-api flash-extract arxiv_paper.pdf - CLI 将 PDF 转为 Markdown 输出到
stdout - Agent 读取 Markdown,根据内容生成摘要
返回结果类似:
这篇论文提出了一种基于 Transformer 的序列建模方法,主要贡献包括:①引入了多头自注意力机制,将序列建模复杂度从 O(n²) 降到 O(n);②提出了位置编码方案,让模型同时捕捉 token 的语义和位置信息;③在 WMT 2014 英德翻译任务上达到 BLEU 28.4,超越此前所有结果。实验在三个数据集(WMT 英德、英法、以及 English Constituency Parsing)上进行,准确率相比当时最优 baseline 提升了 2.0 BLEU 以上。
场景三:批量处理技术文档
你有一整本 API 文档,想快速了解每个章节的主题:
把 ./docs/api-reference.pdf 按章节拆分,给我一个目录大纲
Agent 会执行 mineru-open-api extract ./docs/api-reference.pdf,读取返回的 Markdown 结构,根据标题层级自动梳理出章节大纲:
第 1 章:认证与授权(OAuth 2.0 + API Key)
第 2 章:核心接口(RESTful API,支持 CRUD)
第 3 章:错误码表(400/401/403/404/500 及处理建议)
第 4 章:限流策略(令牌桶算法,默认 1000 req/min)
场景二:提取扫描合同的关键条款
扫描件或者图片型 PDF 需要 OCR。你输入:
把这个合同扫描件提取成文字,标出金额条款:contract_scan.pdf
Agent 检查到你需要高精度 + OCR,且文件可能超过 flash 模式的限制,会切换策略:
- 确认
MINERU_TOKEN已配置 - 执行
mineru-open-api extract contract_scan.pdf --ocr --pages 1-10 - 将返回的 Markdown 呈现给你,并标注出包含金额的段落
如果未配置 Token,Agent 会提示你设置后再试。
进阶:参数控制与批量处理
你可以直接在自然语言中指定参数,Agent 会映射为 CLI 参数。
指定页码范围:
提取这个 PDF 的第 3-8 页:report.pdf
→ Agent 执行 mineru-open-api flash-extract report.pdf --pages 3-8
多格式导出:
把这个文档解析成 Markdown 和 Word:guide.docx
→ Agent 执行 mineru-open-api extract guide.docx -f md,docx -o ./output/
批量处理多个文件:
把当前目录下所有 PDF 解析成 Markdown
→ Agent 执行 mineru-open-api extract *.pdf -o ./results/
从文件列表批量处理:
papers.txt 里有 10 篇论文 URL,全部转成 Markdown
→ Agent 执行 mineru-open-api extract --list papers.txt -o ./papers_md/
extract 模式支持三种批量输入方式:位置参数(*.pdf)、--list(从文件读取输入列表)和 --stdin-list(从管道读取列表)。批量场景下 -o 必须是目录,否则 CLI 会报错。--concurrency 参数(当前版本预留)未来可用于控制并发数。
处理扫描件时显式开启 OCR:
这份合同是扫描件,帮我全文 OCR 后提取付款条款
→ Agent 执行 mineru-open-api extract contract_scan.pdf --ocr --language ch
--language 参数影响 OCR 识别效果,中日韩混排文档建议显式指定 ch,英文文档用 en。--ocr 会调用 PaddleOCR 引擎,对倾斜、模糊、低对比度的扫描件仍有较好的识别率。
Skill 方案 vs MCP 方案的取舍
| 对比维度 | Skill + CLI | MCP Server |
|---|---|---|
| 稳定性 | 高——纯 CLI 调用,不依赖 MCP 协议层 | 当前 DeepSeek-TUI 存在连接问题 |
| 后台进程 | 无——命令行执行,用完即退 | 需要持续运行 MCP Server 进程 |
| 安装复杂度 | 两步:装 CLI + 放 Skill | 配置 JSON + 管理进程生命周期 |
| 文件大小上限 | flash 10MB / extract 200MB | 同(API 层面一致) |
| 多格式输出 | flash 仅 Markdown / extract 支持多格式 | 同 |
| Token 需求 | flash 免登录 / extract 需 Token | Flash 模式免 Key / 完整模式需 Token |
Skill 方案的核心优势在于轻量和稳定——没有持久化进程,没有协议层的中间故障点。代价是依赖本地 CLI 安装,初次配置需要两步操作。而 MCP 方案一旦 DeepSeek-TUI 修复了连接问题,在配置管理上会更方便(统一在 MCP 配置文件中管理)。
如果你当前正被 DeepSeek-TUI 读不了 PDF 困扰,Skill + CLI 这条路线可以立刻解决问题。装好 CLI,放好 Skill,剩下的交给 Agent 自己判断用哪种模式。
更多推荐


所有评论(0)