配图

离线评测的致命盲区

某金融知识库项目在 POC 阶段展示时,混合检索(向量+BM25)的评测集准确率达 92%,但上线两周后业务方投诉「找不到最新业务手册条款」。根本矛盾在于:

  1. 评测集静态性陷阱:测试时仅采样了历史工单数据,未覆盖业务部门最近上传的 PDF/PPT 等非结构化文档
  2. 向量库冷启动问题:Milvus 索引构建时未处理多模态文件中的表格和流程图,导致关键业务规则未被编码进 embedding
  3. 关键词检索的失效边界:当业务术语发生变更(如「跨境支付」改为「国际结算」)时,纯文本匹配直接崩溃

混合检索的工程断点检查清单

断点 1:文本切分策略

  • 错误实践:固定 512 token 的滑动窗口切割,破坏表格和编号列表的语义连续性
  • 修复方案
  • 使用 unstructured 库的 partition_pdf 按视觉区块切分
  • 对表格类内容强制启用 XML 或 HTML 标签保留模式
  • 添加自定义正则规则捕获「第X条」等法律条文结构
  • 针对金融合同特有的「定义条款」区块,采用语义分割而非位置分割(需训练领域分类器)

断点 2:向量化冷启动

  • DeepSeek-V4 实测数据
  • 纯文本段落 embedding 相似度:0.82(表现良好)
  • 扫描版 PDF 中的表格内容相似度:0.31(完全失效)
  • 流程图截图经 OCR 处理后相似度:0.45(临界值)
  • 补偿措施
  • 对扫描件先用 PaddleOCR 提取文本+结构信息
  • 表格类内容转为 Markdown 格式后二次嵌入
  • 在 RAG 链路中添加规则引擎,对「利率」「限额」等关键字段做正则兜底
  • 对流程图类内容生成文字描述(可用 GPT-4V 或 LLaVA),再与原文拼接嵌入

断点 3:动态术语处理

  • 建立业务术语变更监听机制:
  • difflib 对比新旧版文档的词频变化
  • 当检测到「跨境支付→国际结算」类变更时,自动生成同义词映射规则
  • 对核心术语启用 cross-encoder/ms-marco-MiniLM-L-6-v2 重排
  • 在 DeepSeek-V4 的 prompt 中注入术语映射表(通过 system message 声明)

离线评测的增强方法

  1. 压力测试集构造
  2. 必须包含:新版业务手册、扫描件、带合并单元格的 Excel 报表
  3. 负面案例:故意插入术语变更前后的对比查询(如「找跨境支付流程」vs「国际结算规范」)
  4. 对抗样本:包含特殊符号(如「§3.2(a)」)的法规引用查询

  5. 在线影子流量采集

  6. 至少收集 2 个业务周期(如金融业的季度结息时段)
  7. 存储原始 query 和返回结果时,需记录当时的文档快照版本
  8. 对 DeepSeek-V4 的 API 调用添加 trace_id,便于关联日志中的 token 消耗

  9. 退化测试指标

  10. 当向量服务超时或降级时,纯关键词检索的召回率下限
  11. 业务方可接受的「部分匹配」阈值(如允许缺少流程图但必须返回条款正文)
  12. 混合检索时 P99 延迟需控制在 800ms 内(金融业典型 SLA)

何时不该用混合检索

  • 文档更新频率>1次/天:建议改用基于知识图谱的实时订阅机制
  • 查询中富含专业公式/符号:优先走 Mathpix+LaTeX 的专业管道
  • 强合规场景:当需要精确匹配法律条文编号时,向量检索反而会增加幻觉风险
  • 小语种文档占比高:某些语言的 embedding 质量不稳定,需单独评估

DeepSeek-V4 的特殊优化

  • 对于长上下文业务文档(>8k tokens),启用 trust_remote_code=True 加载 DeepSeek 原生 tokenizer 避免截断
  • 在混合检索 pipeline 中,用 deepseek.get_embeddings()prompt_template 参数显式声明「该文本用于金融条款检索」以提升领域适配性
  • 通过 API 的 top_k=30 参数扩大召回范围,再用本地重排模型(如 bge-reranker-base)精筛
  • 对高价值查询启用「双重校验」模式:先用向量检索,再用关键词在结果集内精确匹配

上线后的监控闭环

  1. 埋点采集:
  2. 用户实际点击的文档片段与排序位置
  3. 查询中包含的未登录词(OOV)统计
  4. 报警规则:
  5. 当「无结果」查询占比突增 5% 时触发
  6. 检测到高频查询「找不到XX」时自动生成工单
  7. 模型迭代:
  8. 每月用新数据微调 embedding 模型
  9. 对投诉集中的查询类型人工构建 golden set
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐