
DeepSeek+知识库生成的结果不准,该如何解决?看完这一篇你就懂了!!!
交流了“如何使知识库检索更准确”、“在知识库检索之前应该做哪些事情”、“大模型在公文领域的实践及相关问题解决方案”、“知识图谱对于知识库检索准确度的提升”等话题,大佬在海量公文政策的AI实践中得到了很多经验,这次交流不仅验证了我们的技术可行性,同时也得到了很多不一样的想法。
前言
去深圳市政府见一个客户A,说是技术交流,但是提问的是个不懂技术的领导,当我们开始说技术实现相关细节时,就被打断,最后接受了一堆需求。其实这个活应该售前去,毕竟是吹牛逼大会,做技术的都比较现实一些,能做我会说一定完成,不一定能做的就不会乱说,导致客户说我们技术不行,我就笑了。
今天加了个班,去拜访了另一个客户B,果然人与人之间的沟通还是要有话共同的话题才行,客户B是纯纯的技术大佬,我们都在做AI相关的实践,有着很多的共同话题,交流了“如何使知识库检索更准确”、“在知识库检索之前应该做哪些事情”、“大模型在公文领域的实践及相关问题解决方案”、“知识图谱对于知识库检索准确度的提升”等话题,大佬在海量公文政策的AI实践中得到了很多经验,这次交流不仅验证了我们的技术可行性,同时也得到了很多不一样的想法。
加完班就赶紧回家里,准备写这篇文章,毕竟这是实践得到的真知,十分难得。
政务领域AI实践遇到的问题
- 大量公文检索容易不准,且会出现AI幻觉
- 政务服务事项指南检索不准
- 几百页的文件如何提取信息,并导入知识库
- 意图识别不准确该如何解决
常见操作及问题
我们在说检索问题之前要先了解下知识库检索的大致流程:
(1)用户输入了一句话
(2)在知识库中检索相关内容
(3)大模型进行RAG增强输出
同时我们也要审视下自己在使用知识库(比如Dify的知识库)时,是不是存在以下几个问题:
(1)直接上传文档,管它是PDF、Word、Excel
(2)上传文档之后,直接在工作流中配置知识库,没有任何前置和后置的工具
(3)当检索不准确的时候,就开始疑惑:为什么它不准啊,查找各种资料,都找不到方法解决。
准确度影响因素-文件类型
在我做具体实践时,发现Excel中的数据记录相互之间是没有语义关联的,对于向量检索不是很友好,对于这种问题有几种说法:
(1)向量数据库通过多维度特征转换数据,可能更适合非结构化数据。如果Excel表格中的数据结构不够丰富,或特征提取不当,转换后的向量可能无法准确反映语义信息,影响检索效果;
(2)向量检索在处理非语义内容(如编号)时效果不佳,而全文检索可能也不适合这种情况,如果Excel中包含大量非语义的字段,单纯依赖向量检索可能无法准确匹配,需要结合其他方法(如混合检索);
(3)如果用户的需求是精确查询,使用向量检索可能不适合。在Excel中添加标签辅助RAG检索,可能用户未对数据做足够的预处理或标签优化,导致向量库的检索效率低下;
准确度影响因素-分段
我们在Dify中使用知识库时,有时候搞不懂他的分段规则,就直接选择了自动分段与清洗,如果你的文本是提前准备好的,有良好的分段标准,这样是可以的,但是如果你的文本没有什么格式,还要使用自动分段,就要看下分段结果了。
自动分段可能存在两个问题:
(1)上下文割裂:自动分段可能会过度切割,这样会导致关键的上下文丢失(比如错误的解决方案要依赖前置场景的描述)
(2)语义碎片化:短段落可能会丢失逻辑关联(如多步骤操作说明被拆散),导致找回结果不完整
这个时候,如何分段就比较重要了,结合我们的实践,有以下几点分段建议
段落长度控制:
(1)推荐段落保持在50-500字,太短会导致信息被拆散,太长则容易引入噪声(和段落主意不相关的内容)。论文研究表明,200-300字段分段效果较好。
(2)提前整理好文本,按照一定格式分段,比如自然段落、换行符、特定符号等,而非固定长度。
结构化分割方法:
(1)根据内容不同处理方案不同,比如技术文档就可以按照功能模块和章节进行拆分(比如接口参数定义和示例分开放置);对话日志一单词对话伦茨为单元,保留提问与答复的关联性。;再比如长图文内容,可以拆分文字和独立图注,避免跨模态混合检索混淆。
(2)结合NLP技术,使用分段模型识别语义边界,对文本进行分割。
上下文增强设计:
(1)使用分层嵌套结构,比如大标题段落下保留字段索引(如【安装步骤→步骤一→注意事项】),检索时允许跨层级关联。这个简单理解就是先总结文本,再对文本分段,总分结构。
(2)根据文本内容提取标签(客户现场使用了这种方案),通过大量的标签来拼接内容,同时使用标签缩减内容的长度,避免内容长度过大导致AI幻觉。
实际案例对比:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
准确性影响因素-大模型的节点位置
在知识库的应用中,大模型常常是在知识库检索完成之后,对检索内容进行RAG增强输出,但实际上如果想要知识库检索准确,也可以先让大模型对语义进行一层转换,举个例子:
政务服务事项中有一项是《企业职工个人缴费历史更正》,其中有段描述是重复缴费,当我作为一个普通人去办理相关事项时,根本不知道重复缴费的概念,就问了一句大白话”我缴了两次费怎么办“,此时向量匹配的结果命中率还比较低。
那么,我为了让它更精准,在知识库检索之前,让大模型对”我缴了两次费怎么办“这句话进行了调整,我给的提示词是”以政务服务办理的场景重新描述下这句话:我缴了两次费用怎么办,要求字数相当,语义不变,符合政务服务办理标准场景“
转换之后的结果为”经查询发现同一事项重复缴纳,应如何申请退费流程及所需材料“,再次看看知识库检索的效果吧。
转换之后的结果查询更准了,且匹配度更高,这就是换一种说法的重要性。
几百页的文档如何提取信息并导入知识库
其实这个也没有什么更好的办法,比如纯文字的word文档,很容易提取信息,但如果word中有表格,就需要对表格进行处理,甚至如果表格横跨多页,就更难处理了。针对于现在的文档,客户现场是使用OCR识别提取,而我们用的是多模态大模型提取,都有同样的问题,如果少量的文档还好,如果是几百页的文件,可以拆分成单页进行处理,此时头疼的事情应该是分页提取完成之后的数据如何整合。
意图识别不准确应该怎么解决
意图识别是整个处理过程的第一步,对于后续的处理效果和效率非常重要。常见的有几个方法:
(1)添加领域近似关键词,比如户口本、户口簿、户口等
(2)上下文联动,比如我上一句刚问完出生医学证明,下一句就问了社保怎么办,应该要对连续意图进行关联分析,得到我是要办理新生儿社保。
(3)数据扩充,比如刚刚说的大模型对白话进行专业领域语义的改写扩充
最后的最后
感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。
为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。
这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。
这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

DeepSeek全套安装部署资料
大模型知识脑图
为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
经典书籍阅读
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

更多推荐
所有评论(0)