前言

去深圳市政府见一个客户A,说是技术交流,但是提问的是个不懂技术的领导,当我们开始说技术实现相关细节时,就被打断,最后接受了一堆需求。其实这个活应该售前去,毕竟是吹牛逼大会,做技术的都比较现实一些,能做我会说一定完成,不一定能做的就不会乱说,导致客户说我们技术不行,我就笑了。

今天加了个班,去拜访了另一个客户B,果然人与人之间的沟通还是要有话共同的话题才行,客户B是纯纯的技术大佬,我们都在做AI相关的实践,有着很多的共同话题,交流了“如何使知识库检索更准确”、“在知识库检索之前应该做哪些事情”、“大模型在公文领域的实践及相关问题解决方案”、“知识图谱对于知识库检索准确度的提升”等话题,大佬在海量公文政策的AI实践中得到了很多经验,这次交流不仅验证了我们的技术可行性,同时也得到了很多不一样的想法。

加完班就赶紧回家里,准备写这篇文章,毕竟这是实践得到的真知,十分难得。

政务领域AI实践遇到的问题

  • 大量公文检索容易不准,且会出现AI幻觉
  • 政务服务事项指南检索不准
  • 几百页的文件如何提取信息,并导入知识库
  • 意图识别不准确该如何解决

常见操作及问题

我们在说检索问题之前要先了解下知识库检索的大致流程:

(1)用户输入了一句话

(2)在知识库中检索相关内容

(3)大模型进行RAG增强输出

同时我们也要审视下自己在使用知识库(比如Dify的知识库)时,是不是存在以下几个问题:

(1)直接上传文档,管它是PDF、Word、Excel

(2)上传文档之后,直接在工作流中配置知识库,没有任何前置和后置的工具

(3)当检索不准确的时候,就开始疑惑:为什么它不准啊,查找各种资料,都找不到方法解决。

准确度影响因素-文件类型

在我做具体实践时,发现Excel中的数据记录相互之间是没有语义关联的,对于向量检索不是很友好,对于这种问题有几种说法:

(1)向量数据库通过多维度特征转换数据,可能更适合非结构化数据。如果Excel表格中的数据结构不够丰富,或特征提取不当,转换后的向量可能无法准确反映语义信息,影响检索效果;

(2)向量检索在处理非语义内容(如编号)时效果不佳,而全文检索可能也不适合这种情况,如果Excel中包含大量非语义的字段,单纯依赖向量检索可能无法准确匹配,需要结合其他方法(如混合检索);

(3)如果用户的需求是精确查询,使用向量检索可能不适合。在Excel中添加标签辅助RAG检索,可能用户未对数据做足够的预处理或标签优化,导致向量库的检索效率低下;

准确度影响因素-分段

我们在Dify中使用知识库时,有时候搞不懂他的分段规则,就直接选择了自动分段与清洗,如果你的文本是提前准备好的,有良好的分段标准,这样是可以的,但是如果你的文本没有什么格式,还要使用自动分段,就要看下分段结果了。

自动分段可能存在两个问题:

(1)上下文割裂:自动分段可能会过度切割,这样会导致关键的上下文丢失(比如错误的解决方案要依赖前置场景的描述)

(2)语义碎片化:短段落可能会丢失逻辑关联(如多步骤操作说明被拆散),导致找回结果不完整

    这个时候,如何分段就比较重要了,结合我们的实践,有以下几点分段建议

段落长度控制:

(1)推荐段落保持在50-500字,太短会导致信息被拆散,太长则容易引入噪声(和段落主意不相关的内容)。论文研究表明,200-300字段分段效果较好。

(2)提前整理好文本,按照一定格式分段,比如自然段落、换行符、特定符号等,而非固定长度。

结构化分割方法:

(1)根据内容不同处理方案不同,比如技术文档就可以按照功能模块和章节进行拆分(比如接口参数定义和示例分开放置);对话日志一单词对话伦茨为单元,保留提问与答复的关联性。;再比如长图文内容,可以拆分文字和独立图注,避免跨模态混合检索混淆。

(2)结合NLP技术,使用分段模型识别语义边界,对文本进行分割。

上下文增强设计:

(1)使用分层嵌套结构,比如大标题段落下保留字段索引(如【安装步骤→步骤一→注意事项】),检索时允许跨层级关联。这个简单理解就是先总结文本,再对文本分段,总分结构。

(2)根据文本内容提取标签(客户现场使用了这种方案),通过大量的标签来拼接内容,同时使用标签缩减内容的长度,避免内容长度过大导致AI幻觉。

实际案例对比:

分段方案
召回率
准确率
问题示例
整篇文档直接搜索
搜【公文摘要】,返回整篇公文
固定200字强制分段
答案被切到两个段落导致遗漏
按自然段落动态分段
中高
精准匹配FAQ独立问答块
NLP语义分段+结构标记
跨段落【公文标签+公文详情】

准确性影响因素-大模型的节点位置

在知识库的应用中,大模型常常是在知识库检索完成之后,对检索内容进行RAG增强输出,但实际上如果想要知识库检索准确,也可以先让大模型对语义进行一层转换,举个例子:

政务服务事项中有一项是《企业职工个人缴费历史更正》,其中有段描述是重复缴费,当我作为一个普通人去办理相关事项时,根本不知道重复缴费的概念,就问了一句大白话”我缴了两次费怎么办“,此时向量匹配的结果命中率还比较低。

那么,我为了让它更精准,在知识库检索之前,让大模型对”我缴了两次费怎么办“这句话进行了调整,我给的提示词是”以政务服务办理的场景重新描述下这句话:我缴了两次费用怎么办,要求字数相当,语义不变,符合政务服务办理标准场景“


转换之后的结果为”经查询发现同一事项重复缴纳,应如何申请退费流程及所需材料“,再次看看知识库检索的效果吧。

转换之后的结果查询更准了,且匹配度更高,这就是换一种说法的重要性。

几百页的文档如何提取信息并导入知识库

其实这个也没有什么更好的办法,比如纯文字的word文档,很容易提取信息,但如果word中有表格,就需要对表格进行处理,甚至如果表格横跨多页,就更难处理了。针对于现在的文档,客户现场是使用OCR识别提取,而我们用的是多模态大模型提取,都有同样的问题,如果少量的文档还好,如果是几百页的文件,可以拆分成单页进行处理,此时头疼的事情应该是分页提取完成之后的数据如何整合。

意图识别不准确应该怎么解决

意图识别是整个处理过程的第一步,对于后续的处理效果和效率非常重要。常见的有几个方法:

(1)添加领域近似关键词,比如户口本、户口簿、户口等

(2)上下文联动,比如我上一句刚问完出生医学证明,下一句就问了社保怎么办,应该要对连续意图进行关联分析,得到我是要办理新生儿社保。

(3)数据扩充,比如刚刚说的大模型对白话进行专业领域语义的改写扩充

最后的最后

感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

DeepSeek全套安装部署资料

在这里插入图片描述

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐