一文搞懂：为什么大模型会出现幻觉？日常使用中如何控制幻觉？

今天看到一篇人民日报发的文，Deepseek“乱编” 坑惨了大学生，使用大模型写论文“被坑”的情况并不少见。例如，有网友分享了自己用大模型写论文的经历，大模型不仅会编造论文文献，还会编造法律条文。大模型会生成看似合理但实际错误的信息，这就是**“大模型幻觉”**现象。在日常使用大模型时，其生成的幻觉内容，是错误或者虚假的信息，会影响判断并导致决策失误。

大靠山

1552人浏览 · 2025-04-11 16:01:00

大靠山 · 2025-04-11 16:01:00 发布

一、前言

那么出现幻觉的根本原因是什么，我们在使用大模型的时候应该怎么控制并且减少幻觉。

二、大模型出现幻觉的根本原因是什么？

大模型的“幻觉”（hallucination）是指它生成的内容看似合理，但实际上是错误、虚构或与事实不符的现象，也就是大家常说的一本正经的胡说八道。这种现象的深层技术原因涉及多个方面，笔者尝试从最基础的原理开始，逐步拆解大模型为什么会出现幻觉。

1、生成式模型的本质：基于概率的预测

大模型的核心是基于自回归语言建模（autoregressive language modeling）或填充式语言建模（masked language modeling），它的目标是：

在已有上下文的基础上预测下一个 token（自回归模型，如 GPT）
基于部分已知文本填充缺失的部分（填充式模型，如 BERT）

无论是哪种方式，本质上模型都是在统计学习的框架下，根据训练数据中的概率分布来预测输出。因此，它并不具备真正的理解力，而只是生成在语义上高度符合统计规律的文本。

问题：语言模型并不会验证“事实”，只会生成最可能的文本

由于语言模型的目标是最小化预测误差，而不是确保内容的真实性，因此即使它生成的信息，统计上看似合理，实际上可能是错误的。例如，模型可能会生成一个学术理论的“引文”，这个引文的格式完全正确，但实际上这个文献可能并不存在。

2、训练数据的局限性与偏差

大模型的知识来自于训练数据，但训练数据本身可能存在问题，例如：

**数据不完****整：**如果训练数据中没有包含某些领域的知识，模型只能根据已有知识“胡乱拼凑”出一个合理的答案。

数据存在错误：如果训练数据中包含大量错误信息，模型就会学到这些错误，并在生成时复现。

数据偏差**：**某些信息在训练数据中出现的频率高，而另一些信息很少出现，模型会倾向于生成“高频出现的内容”，导致偏见或事实错误。

问题：模型是“数据的镜像”，如果数据本身有问题，幻觉就不可避免

例如，如果训练数据主要来自英文文献，模型在回答关于某个非英语国家历史事件的问题时，可能会拼凑出错误的信息。

3、有限的上下文窗口，导致信息丢失

大模型在推理时通常会受到上下文窗口的限制，例如 DeepSeek 的最大上下文长度是 128k tokens，如果上下文窗口不够长，模型可能会丢失关键信息，导致生成的内容缺乏必要的事实支撑。例如，在长篇对话或复杂推理过程中，模型可能会“忘记”之前的信息，并根据新的短时上下文重新生成内容，进而导致不一致或错误的回答。

问题：信息丢失，导致模型“自圆其说”，例如，在长对话中，模型可能会在不同的时刻给出矛盾的答案，因为它无法记住自己前面说过的内容。

4、生成流畅性 vs. 真实性的权衡

现代大模型被设计成能够生成流畅、连贯、有逻辑的文本，但这并不意味着内容就一定是正确的。Transformer 结构的注意力机制使得它在语言流畅性上表现优秀，但流畅的文本并不等于真实的文本。例如，在大模型的 RLHF（强化学习+人类反馈）训练过程中，优化的目标之一是提高对话的流畅度和连贯性，但这并不意味着它能够确保所有生成内容都是准确的。

问题：模型在追求流畅性时，可能牺牲真实性

例如，问 AI：“2024 年的诺贝尔物理学奖获得者是谁？”如果模型没有最新数据，它可能会“编造”一个答案，而不是直接说“不知道”。这是因为它的目标是生成，看似可信的回答，而不是像数据库查询那样提供确切的信息。

三、如何在使用时控制大模型幻觉

本文主要讨论在使用开源大模型时如何控制幻觉的方法，除此之外，还可以通过训练和微调，但是因为其使用成本高，以后再单独讨论。

1、设定信息边界：限制模型的参考范围

目的**：避免模型“自由发挥”，确保回答基于指定来源或时间范围。**

方法：

限定时间范围（如“仅基于 2023 年的数据”）。
限定信息来源（如“仅基于官方文档，仅参考提供的背景信息等”）。
要求提供信息出处（如“请列出数据来源”）。

示例：提问：“分析 2024 年中国财政政策与货币政策效应”

优化后提问："请基于中国国务院 2024 年《政府工作报告》及国家统计局 2024 年 1-12 月发布的宏观经济数据，分析 2024 年中国财政政策与货币政策的协同效应，并标注具体政策条款和数据来源”

设计逻辑：

限定范围：明确要求使用官方权威文件（国务院报告）和机构数据（国家统计局），排除非官方推测

时间约束：聚焦 2024 年最新数据，避免混入历史推测

专业聚焦：要求分析政策协同性（财政+货币），而非泛泛而谈

引用规范：强制标注来源，便于验证

**2、标注不确定信息：**要求 AI 区分推测与事实

目的：让模型明确哪些内容是已知事实，哪些是推测，避免用户误以为所有信息都是准确的。

方法：

要求 AI 明确标注推测性内容。
指定“已证实信息”与“推测信息”分开列出。
让 AI 说明不确定性的原因。

示例：提问：“分析比亚迪 2025 年欧洲市场渗透率”

优化后提问："请基于比亚迪 2024 年欧洲销售报告及 ACEA（欧洲汽车制造商协会）公布的 2024 年注册数据，分析比亚迪 2025 年在欧洲市场的渗透率，并对预测性内容进行标注 [推测内容]，同时说明预测的依据和可能的不确定性。”

3、逐步拆解问题：确保逻辑清晰

目的**：通过分步分析，让 AI 先整理确定的信息，再进行推理，从而减少错误。**

方法：

先要求模型列出事实依据，再展开分析。
强调“先罗列数据/案例，再进行推测”。
要求 AI 在每一步提供具体来源或解释。

示例：提问：“人工智能如何影响就业？”

优化后提问：“请分两步回答：

s1、先列举目前已发生的 AI 对就业的影响（包括具体行业和数据）；

s2、再基于这些事实进行未来趋势分析。”

4、明确约束条件：避免模型编造信息

目的：防止 AI 过度推测，确保回答基于真实数据。

方法：

明确告知 AI “只基于已有事实回答，不要推测”。
让 AI 说明信息的可靠性（如“请仅使用已发布的官方数据”）。
禁止模型提供虚构的信息（如“如果没有信息，请直接回答‘无法确定’”）。

示例：提问：“2025 年中国房价会怎样？”

优化后提问：“请仅基于 2024 年的房地产市场数据和已出台的政策，分析 2025 年可能的走势。不做主观预测，并说明数据来源。”

5、结合外部工具或数据库，提升准确性

目的：利用数据库或搜索功能，确保 AI 提供最新、真实的信息。

方法：

使用检索增强生成（RAG），结合搜索引擎获取最新数据。
让 AI 先搜索资料，再回答问题。
使用 AI+数据库查询，如 SQL 查询或特定文献搜索工具。

示例：提问：“目前全球有哪些 AI 监管政策？”

优化后提问：“请基于最新的 2024 年 AI 监管政策，并提供官方文件或新闻报道作为引用。”（可结合 Web 搜索，确保答案准确）

6、让 AI 进行自我检查，减少幻觉

目的：要求 AI 在生成答案后，自行检查信息的准确性，降低幻觉率。

方法：

让 AI 先回答问题，再自我检查是否有幻觉。
让 AI 以“批判性思维”重新审视自己的回答。
指定 AI 以“如果我是专家，我会如何验证这个回答”的角度自我检验。

示例：提问：“介绍 DeepSeek 的优势。”

优化后提问：“请介绍 DeepSeek 的优势，并在最后一步自行检查是否包含任何未经验证的信息。如果有，请标注 [可能不准确]。”

四、总结

上述主要说明如何通过提示词，低成本的缓解大模型幻觉，主要包含以下内容

1、知识边界约束：规范提示强制引用权威数据源，限制模型在可验证事实范围内生成内容

2、不确定性显性化：要求标注[推测内容]并说明依据，避免模型以高置信度输出虚构信息

3、注意力聚焦：结构化提示（如"分三步回答"）引导模型关注关键事实，减少随机发散

4、验证机制触发：指定交叉验证要求（如"对比两个数据源"）激活模型内部一致性检查这些方法共同抑制了模型因数据缺陷、训练偏差和生成随机性导致的幻觉。

另外在缓解大模型因数据缺陷导致的幻觉问题上，**检索增强生成（RAG）**技术通过外挂私有化知识库或实时联网检索，动态引入外部数据源，显著提升了生成内容的准确性和时效性。该方法已成为当前业界平衡模型创造力与事实可靠性的主流解决方案。

那么读者可能会有疑问，如果一个问题大模型自身训练学会了一个答案，然后外挂知识库也有一个答案，请问在回复时会以哪个答案为准？

在 RAG 场景中，当大模型自身训练的答案与外挂知识库的答案存在冲突时，多数系统会优先采用外挂知识库的答案，

主要原因包括以下三点:

1、向量化检索的优先级控制

当用户提问时，RAG 会先将问题转换为高维向量（如通过 BERT 等嵌入模型），然后在向量数据库中检索相似度最高的知识片段，系统默认将检索结果作为生成阶段的强制上下文，通过提示词模板（如"请基于以下资料回答…"）将知识库内容置于模型自生成内容之前，这种设计在技术栈层面确保了外部知识的主导性

2、注意力机制的动态调整

在生成阶段，大模型的注意力机制会优先处理检索到的知识片段。实验表明，当输入上下文包含检索内容时，LLM 的注意力权重分布会显著偏向这些外部信息（约 70-80%的注意力集中在检索片段），即外部知识库中检索的内容。

3、置信度阈值机制

RAG 系统（如 Self-RAG）会计算检索结果的置信度分数，当分数超过阈值（如 0.7）时直接禁用模型参数化知识的生成路径，而采用知识库中的知识.

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述