Qianfan-OCR实操手册：自定义JSON Schema编写→正则匹配→字段清洗

偏偏无理取闹

694人浏览 · 2026-04-24 03:44:10

偏偏无理取闹 · 2026-04-24 03:44:10 发布

Qianfan-OCR实操手册：自定义JSON Schema编写→正则匹配→字段清洗

1. 工具概览

Qianfan-OCR是基于百度千帆InternVL架构开发的单卡GPU专属文档解析工具，专为解决传统OCR在复杂文档处理中的局限性而设计。这个工具特别适合需要处理高清文档、表格、公式和结构化数据提取的场景，同时保持了纯本地运行的优势，无需网络依赖。

1.1 核心优势

单卡GPU优化：专为单卡环境设计，显存占用低，推理速度快
动态高分辨率处理：自动适配不同比例文档，最高支持12块高清切片
多模式解析：提供5种专业解析模式，满足不同文档处理需求
本地化运行：所有数据处理都在本地完成，保障数据安全

2. 准备工作

2.1 环境配置

确保您的系统满足以下要求：

NVIDIA显卡（推荐RTX 3060及以上）
CUDA 11.7或更高版本
Python 3.8+
至少8GB显存

安装依赖：

pip install -r requirements.txt

2.2 模型初始化

工具启动时会自动加载模型，您可以在控制台看到加载进度：

[INFO] Loading Qianfan-OCR model...
[INFO] Model loaded successfully on cuda:0

3. 自定义JSON Schema编写

3.1 Schema基础结构

自定义JSON Schema是提取结构化数据的关键。以下是一个基础模板：

{
  "document_type": "invoice",
  "fields": [
    {
      "name": "invoice_number",
      "description": "发票号码",
      "regex": "发票号码[:：]\\s*(\\w+)"
    },
    {
      "name": "total_amount",
      "description": "总金额",
      "regex": "金额合计[:：]\\s*(\\d+\\.\\d{2})"
    }
  ]
}

3.2 字段定义要点

每个字段应包含以下属性：

name: 字段标识符（英文）
description: 字段描述（中文）
regex: 匹配规则（正则表达式）
required: 是否必填（可选）
post_process: 后处理函数（可选）

3.3 常用正则表达式模式

匹配目标	正则表达式示例	说明
中文文本	`[\u4e00-\u9fa5]+`	匹配中文字符
数字	`\d+`	匹配连续数字
金额	`\d+\.\d{2}`	匹配带两位小数的金额
日期	`\d{4}年\d{1,2}月\d{1,2}日`	匹配中文格式日期
表格行	`\|(.+?)\|`	匹配Markdown表格中的内容

4. 正则匹配实战

4.1 基础匹配示例

假设我们要从发票中提取"开票日期"：

import re

text = "开票日期：2023年12月15日"
pattern = r"开票日期[:：]\s*(\d{4}年\d{1,2}月\d{1,2}日)"
match = re.search(pattern, text)
if match:
    print(f"找到日期: {match.group(1)}")

4.2 复杂匹配技巧

多行匹配：使用re.DOTALL标志

pattern = r"商品名称(.+?)小计"
matches = re.findall(pattern, text, re.DOTALL)

非贪婪匹配：使用?修饰符

pattern = r"<td>(.+?)</td>"  # 匹配最短的<td>内容

4.3 匹配性能优化

预编译正则表达式：re.compile()
使用原始字符串：r"pattern"
避免过度使用.*?，尽量具体化匹配模式

5. 字段清洗与后处理

5.1 常见清洗需求

问题类型	解决方案	示例代码
多余空格	`str.strip()`	`value = value.strip()`
错误符号	`str.replace()`	`value = value.replace('￥', '')`
日期格式	`datetime`转换	`dt = datetime.strptime(value, "%Y年%m月%d日")`
金额单位	去除单位	`value = value.replace('元', '')`
表格对齐	去除填充	`value = value.replace(' ', '')`

5.2 自定义清洗函数

在JSON Schema中定义后处理函数：

{
  "name": "amount",
  "regex": "金额[:：]\\s*(.+)",
  "post_process": "clean_amount"
}

对应的Python函数：

def clean_amount(value):
    # 去除货币符号和单位
    value = value.replace('￥', '').replace('元', '')
    # 去除千分位分隔符
    value = value.replace(',', '')
    # 转换为浮点数
    try:
        return float(value)
    except ValueError:
        return None

5.3 数据验证

添加验证逻辑确保数据质量：

def validate_date(date_str):
    try:
        datetime.strptime(date_str, "%Y年%m月%d日")
        return True
    except ValueError:
        return False

6. 完整工作流程示例

6.1 定义Schema

{
  "document_type": "purchase_order",
  "fields": [
    {
      "name": "order_number",
      "description": "订单编号",
      "regex": "订单编号[:：]\\s*(PO-\\d+)",
      "required": true
    },
    {
      "name": "order_date",
      "description": "订单日期",
      "regex": "日期[:：]\\s*(\\d{4}年\\d{1,2}月\\d{1,2}日)",
      "post_process": "convert_date"
    },
    {
      "name": "total_amount",
      "description": "总金额",
      "regex": "总计[:：]\\s*(￥\\d+,\\d+\\.\\d{2})",
      "post_process": "clean_amount"
    }
  ]
}

6.2 处理文档

from qianfan_ocr import QianfanOCR
import json

# 初始化OCR
ocr = QianfanOCR(mode="custom_json")

# 加载自定义schema
with open("order_schema.json") as f:
    schema = json.load(f)

# 处理文档
result = ocr.process(
    image_path="order.jpg",
    custom_schema=schema
)

# 输出结果
print(json.dumps(result, indent=2, ensure_ascii=False))

6.3 输出结果示例

{
  "document_type": "purchase_order",
  "data": {
    "order_number": "PO-20231215",
    "order_date": "2023-12-15",
    "total_amount": 12500.0
  },
  "status": "success"
}