GPT - 4 和豆包幻觉
大语言模型产生幻觉,从数据层面看,训练数据若含有错误、偏见或重复信息,模型可能学习并记忆这些不准确内容;从模型层面来说,模型结构、解码算法及训练过程中的偏差等,均可能导致幻觉的产生。
·
GPT - 4 的幻觉情况
- 幻觉存在性:所有大型语言模型(LLMs)都会产生幻觉,GPT - 4 也不例外,其幻觉的频率和类型因任务而异 ,例如在科学引用和事实性行为方面表现较好,但在历史事件或代码生成等领域,仍然会出现显著的幻觉 。
- 幻觉率数据:根据 SuperCLUE 发布的最新一轮中文大模型忠实性幻觉测评结果,在参与测评的模型中,GPT - 4o - latest 的幻觉率高于豆包大模型 1.5 Pro 。而从 BSChecker 对大模型的幻觉测试来看,在准确上下文场景中 GPT - 4 几乎没有幻觉(0.9% 矛盾和 1.2% 中性),但在无上下文场景中 GPT - 4 仍有超过 10% 的错误比例 。此外,也有数据显示 GPT - 4 Turbo 幻觉率约 1.8% 。
豆包的幻觉情况
- 幻觉存在性:尽管豆包在降低幻觉方面做了很多优化,但理论上仍不能完全杜绝幻觉。在一些复杂或缺乏明确信息的任务中,可能会出现生成与事实不符内容的情况。
- 幻觉率数据:根据 SuperCLUE 发布的最新一轮中文大模型忠实性幻觉测评结果,豆包大模型 1.5 Pro 以仅 4% 的幻觉率、96% 的准确率排名总榜第一,超越了包括 GPT - 4o - latest、DeepSeek - R1、DeepSeek - V3、Gemini - 2.5 - pro 等在内的中外主流模型 。在涵盖文本摘要、多文本问答、对话补全等关键任务的细分评测中,豆包大模型 1.5 Pro 也均位列全球第一 。
大语言模型产生幻觉,从数据层面看,训练数据若含有错误、偏见或重复信息,模型可能学习并记忆这些不准确内容;从模型层面来说,模型结构、解码算法及训练过程中的偏差等,均可能导致幻觉的产生 。
更多推荐



所有评论(0)