DeepSeek+知识库生成的结果不准，该如何解决？看完这一篇你就懂了！！！

交流了“如何使知识库检索更准确”、“在知识库检索之前应该做哪些事情”、“大模型在公文领域的实践及相关问题解决方案”、“知识图谱对于知识库检索准确度的提升”等话题，大佬在海量公文政策的AI实践中得到了很多经验，这次交流不仅验证了我们的技术可行性，同时也得到了很多不一样的想法。

模型优化师

4336人浏览 · 2025-03-04 11:35:43

模型优化师 · 2025-03-04 11:35:43 发布

前言

去深圳市政府见一个客户A，说是技术交流，但是提问的是个不懂技术的领导，当我们开始说技术实现相关细节时，就被打断，最后接受了一堆需求。其实这个活应该售前去，毕竟是吹牛逼大会，做技术的都比较现实一些，能做我会说一定完成，不一定能做的就不会乱说，导致客户说我们技术不行，我就笑了。

今天加了个班，去拜访了另一个客户B，果然人与人之间的沟通还是要有话共同的话题才行，客户B是纯纯的技术大佬，我们都在做AI相关的实践，有着很多的共同话题，交流了“如何使知识库检索更准确”、“在知识库检索之前应该做哪些事情”、“大模型在公文领域的实践及相关问题解决方案”、“知识图谱对于知识库检索准确度的提升”等话题，大佬在海量公文政策的AI实践中得到了很多经验，这次交流不仅验证了我们的技术可行性，同时也得到了很多不一样的想法。

加完班就赶紧回家里，准备写这篇文章，毕竟这是实践得到的真知，十分难得。

政务领域AI实践遇到的问题

大量公文检索容易不准，且会出现AI幻觉
政务服务事项指南检索不准
几百页的文件如何提取信息，并导入知识库
意图识别不准确该如何解决

常见操作及问题

我们在说检索问题之前要先了解下知识库检索的大致流程：

（1）用户输入了一句话

（2）在知识库中检索相关内容

（3）大模型进行RAG增强输出

同时我们也要审视下自己在使用知识库（比如Dify的知识库）时，是不是存在以下几个问题：

（1）直接上传文档，管它是PDF、Word、Excel

（2）上传文档之后，直接在工作流中配置知识库，没有任何前置和后置的工具

（3）当检索不准确的时候，就开始疑惑：为什么它不准啊，查找各种资料，都找不到方法解决。

准确度影响因素-文件类型

在我做具体实践时，发现Excel中的数据记录相互之间是没有语义关联的，对于向量检索不是很友好，对于这种问题有几种说法：

（1）向量数据库通过多维度特征转换数据，可能更适合非结构化数据。如果Excel表格中的数据结构不够丰富，或特征提取不当，转换后的向量可能无法准确反映语义信息，影响检索效果；

（2）向量检索在处理非语义内容（如编号）时效果不佳，而全文检索可能也不适合这种情况，如果Excel中包含大量非语义的字段，单纯依赖向量检索可能无法准确匹配，需要结合其他方法（如混合检索）；

（3）如果用户的需求是精确查询，使用向量检索可能不适合。在Excel中添加标签辅助RAG检索，可能用户未对数据做足够的预处理或标签优化，导致向量库的检索效率低下；

准确度影响因素-分段

我们在Dify中使用知识库时，有时候搞不懂他的分段规则，就直接选择了自动分段与清洗，如果你的文本是提前准备好的，有良好的分段标准，这样是可以的，但是如果你的文本没有什么格式，还要使用自动分段，就要看下分段结果了。

自动分段可能存在两个问题：

（1）上下文割裂：自动分段可能会过度切割，这样会导致关键的上下文丢失（比如错误的解决方案要依赖前置场景的描述）

（2）语义碎片化：短段落可能会丢失逻辑关联（如多步骤操作说明被拆散），导致找回结果不完整

    这个时候，如何分段就比较重要了，结合我们的实践，有以下几点分段建议

段落长度控制：

（1）推荐段落保持在50-500字，太短会导致信息被拆散，太长则容易引入噪声（和段落主意不相关的内容）。论文研究表明，200-300字段分段效果较好。

（2）提前整理好文本，按照一定格式分段，比如自然段落、换行符、特定符号等，而非固定长度。

结构化分割方法：

（1）根据内容不同处理方案不同，比如技术文档就可以按照功能模块和章节进行拆分（比如接口参数定义和示例分开放置）；对话日志一单词对话伦茨为单元，保留提问与答复的关联性。；再比如长图文内容，可以拆分文字和独立图注，避免跨模态混合检索混淆。

（2）结合NLP技术，使用分段模型识别语义边界，对文本进行分割。

上下文增强设计：

（1）使用分层嵌套结构，比如大标题段落下保留字段索引（如【安装步骤→步骤一→注意事项】），检索时允许跨层级关联。这个简单理解就是先总结文本，再对文本分段，总分结构。

（2）根据文本内容提取标签（客户现场使用了这种方案），通过大量的标签来拼接内容，同时使用标签缩减内容的长度，避免内容长度过大导致AI幻觉。

实际案例对比：

分段方案	召回率	准确率	问题示例
整篇文档直接搜索	高	低	搜【公文摘要】，返回整篇公文
固定200字强制分段	中	中	答案被切到两个段落导致遗漏
按自然段落动态分段	中高	高	精准匹配FAQ独立问答块
NLP语义分段+结构标记	高	高	跨段落【公文标签+公文详情】

准确性影响因素-大模型的节点位置

在知识库的应用中，大模型常常是在知识库检索完成之后，对检索内容进行RAG增强输出，但实际上如果想要知识库检索准确，也可以先让大模型对语义进行一层转换，举个例子：

政务服务事项中有一项是《企业职工个人缴费历史更正》，其中有段描述是重复缴费，当我作为一个普通人去办理相关事项时，根本不知道重复缴费的概念，就问了一句大白话”我缴了两次费怎么办“，此时向量匹配的结果命中率还比较低。

那么，我为了让它更精准，在知识库检索之前，让大模型对”我缴了两次费怎么办“这句话进行了调整，我给的提示词是”以政务服务办理的场景重新描述下这句话：我缴了两次费用怎么办，要求字数相当，语义不变，符合政务服务办理标准场景“

转换之后的结果为”经查询发现同一事项重复缴纳，应如何申请退费流程及所需材料“，再次看看知识库检索的效果吧。

转换之后的结果查询更准了，且匹配度更高，这就是换一种说法的重要性。

几百页的文档如何提取信息并导入知识库

其实这个也没有什么更好的办法，比如纯文字的word文档，很容易提取信息，但如果word中有表格，就需要对表格进行处理，甚至如果表格横跨多页，就更难处理了。针对于现在的文档，客户现场是使用OCR识别提取，而我们用的是多模态大模型提取，都有同样的问题，如果少量的文档还好，如果是几百页的文件，可以拆分成单页进行处理，此时头疼的事情应该是分页提取完成之后的数据如何整合。