GPT - 4 和豆包幻觉

大语言模型产生幻觉，从数据层面看，训练数据若含有错误、偏见或重复信息，模型可能学习并记忆这些不准确内容；从模型层面来说，模型结构、解码算法及训练过程中的偏差等，均可能导致幻觉的产生。

MYH516

939人浏览 · 2025-08-25 15:36:14

MYH516 · 2025-08-25 15:36:14 发布

GPT - 4 的幻觉情况

幻觉存在性：所有大型语言模型（LLMs）都会产生幻觉，GPT - 4 也不例外，其幻觉的频率和类型因任务而异，例如在科学引用和事实性行为方面表现较好，但在历史事件或代码生成等领域，仍然会出现显著的幻觉。
幻觉率数据：根据 SuperCLUE 发布的最新一轮中文大模型忠实性幻觉测评结果，在参与测评的模型中，GPT - 4o - latest 的幻觉率高于豆包大模型 1.5 Pro 。而从 BSChecker 对大模型的幻觉测试来看，在准确上下文场景中 GPT - 4 几乎没有幻觉（0.9% 矛盾和 1.2% 中性），但在无上下文场景中 GPT - 4 仍有超过 10% 的错误比例。此外，也有数据显示 GPT - 4 Turbo 幻觉率约 1.8% 。

豆包的幻觉情况

幻觉存在性：尽管豆包在降低幻觉方面做了很多优化，但理论上仍不能完全杜绝幻觉。在一些复杂或缺乏明确信息的任务中，可能会出现生成与事实不符内容的情况。
幻觉率数据：根据 SuperCLUE 发布的最新一轮中文大模型忠实性幻觉测评结果，豆包大模型 1.5 Pro 以仅 4% 的幻觉率、96% 的准确率排名总榜第一，超越了包括 GPT - 4o - latest、DeepSeek - R1、DeepSeek - V3、Gemini - 2.5 - pro 等在内的中外主流模型。在涵盖文本摘要、多文本问答、对话补全等关键任务的细分评测中，豆包大模型 1.5 Pro 也均位列全球第一。

大语言模型产生幻觉，从数据层面看，训练数据若含有错误、偏见或重复信息，模型可能学习并记忆这些不准确内容；从模型层面来说，模型结构、解码算法及训练过程中的偏差等，均可能导致幻觉的产生。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

智体AI的适应性：关于后训练、记忆与技能的综述（上）

DeepSeek技术社区

cover

智体AI的适应性：关于后训练、记忆与技能的综述（下）

DeepSeek技术社区

cover

ChatGPT/API 调用故障排查指南：Realtime 音频、智能体浏览器操作与 AI 编码代理全流程修复手册

DeepSeek技术社区

所有评论(0)

查看更多评论

MYH516

已为社区贡献6条内容