OCR推理大模型全军覆没？OCR-Reasoning基准揭示多模态大模型推理短板

1.5-Vision-Pro、通义千问 Qwen2.5-VL、Kimi-VL-Thinking、GPT-4o、Claude-3.7、Gemini-2.0-flash、DeepSeek-R1 等。CoT 提示能持续提升大多数模型性能（如 Qwen2.5-VL-32B +3.2%, GPT-4o +4.2%）。Qwen2.5-VL-7B 进行 RL 训练的模型（如 VLAA-Thinker, MM-E

PaperWeekly

1251人浏览 · 2025-06-25 19:21:18

PaperWeekly · 2025-06-25 19:21:18 发布

近年多模态推理模型在数学题、学科题上表现出色（MathVista, MMMU等），但 OCR 相关的复杂任务——比如看促销海报算计算最便宜买法、分析财务报表、规划最优路线、处理票据信息——它们的“真本事”到底如何？

长期以来，竟然没有一个系统性的评测标准来检验这些核心 OCR 推理能力！现在，填补这一巨大空白的基准——OCR-Reasoning——终于发布！

论文标题：

OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning

论文链接：

https://arxiv.org/pdf/2505.17163

代码链接：

https://github.com/SCUT-DLVCLab/OCR-Reasoning

项目主页：

https://ocr-reasoning.github.io/

现有OCR评测的短板：主要是“看答案”，没有考验“真思考”

像 DocVQA、TextVQA、OCRBench 这些主流基准，主要考察多模态大模型的感知能力，考的是信息查找和提取（比如“发票总金额是多少？”）。

这种任务靠“快思考”就能搞定，无法准确的衡量模型在复杂 OCR 场景下需要的深度推理能力，比如：

1. 空间布局理解：版面元素之间的空间布局关系怎么看？关系图和树状图怎么看？

2. 数值计算与分析：购物怎么凑单才能最优惠？金融财报怎么分析？

3. 逻辑推理与批判思维：如何根据图文信息推导结论？

4. 多学科知识应用：怎么解决物理图、化学式的问题？

OCR-Reasoning基准：专为OCR推理而生！

为了系统地评测模型在 OCR 场景下的推理水平，研究者打造了 OCR-Reasoning 基准，三大核心亮点：

高质量 & 强推理导向数据集：

1069 道手工精标题目 + 1022 张图片
双重标注+质量评分+人工校验流程，确保数据可靠

硬核要求：答案极少来自原文！OCR-Reasoning (仅 2.3%) vs. 现有基准（答案多可从图片中进行“复制”）。

典型案例对比：

- 老基准：“这件衣服加个多少？” → 读取商标上的数字
- OCR-Reasoning：“买衣服的时候 3 件可以打 6 折，那么某顾客买三件衣服打折后最低单价？” → 需整合价格、规则、商品信息，推理计算！

全覆盖六大核心推理能力：

空间推理：图文混排的布局、位置关系理解。
数值分析：计算成本效益、增长率、财报数据、日程规划。
枚举推理：按条件计数图文元素。
数学推理：解决函数图、几何题、统计问题（大多数题目是手抄获取，更贴合真实 OCR 场景！）。
逻辑推理：批判性思维，基于图文进行推论。
多学科推理：应用物理、化学知识解决图文问题（大多数题目手抄获取！）。

评测结果：顶尖模型也“不及格”，三大关键发现！

研究团队对主流开源 & 闭源模型进行了全面“大考”，包括：豆包-1.5-Vision-Pro、通义千问 Qwen2.5-VL、Kimi-VL-Thinking、GPT-4o、Claude-3.7、Gemini-2.0-flash、DeepSeek-R1 等。

发现 1：没“眼睛”真不行！视觉信息是 OCR 推理的命脉

同一个语言模型（Qwen2.5-32B），纯文本版（DeepSeek-R1+OCR）准确率仅 26.5%，而多模态版（Qwen2.5-VL-32B）飙升至 36.2% —— 差距高达 9.7 个百分点！证明图像输入对文本丰富图像推理至关重要。

发现 2：RL 训练需针对 OCR 推理进行优化

基于 Qwen2.5-VL-7B 进行 RL 训练的模型（如 VLAA-Thinker, MM-Eureka），数学和逻辑推理能力显著提升，但空间和数值分析能力反而下降！这提示：亟需设计更适配 OCR 推理的 RL 算法。

发现 3：天花板还很高！现有技术远未成熟

文档理解“尖子生”豆包-1.5-Vision-Pro (DocVQA 96.7%, ChartQA 87.4%)，在 OCR-Reasoning 上准确率竟不足 50% (46.8%)！
GPT-4o (44.4%)、Gemini-2.0-flash (39.3%) 同样表现挣扎。
结论：同步处理视觉文本、理解语义、进行逻辑推理，是当前模型面临的巨大挑战！

CoT（思维链）有用吗？

普遍有效：CoT 提示能持续提升大多数模型性能（如 Qwen2.5-VL-32B +3.2%, GPT-4o +4.2%）。特例是 VL-Rethinker-7B 用了 CoT 反而掉分！原因可能是其内置反思机制与额外 CoT 提示冲突，破坏了训练-测试一致性。