李彦宏点名批评DeepSeek幻觉高。这回,他真的没错。但大模型的幻觉问题,又远非错与对那么简单。

DeepSeek-R1作为今年年初的新晋国产开源大模型,以强大的推理能力和更懂国人的文笔,在苹果美区App免费下载排行榜上力压ChatGPT一头,甚至一度成为“AI”的代言词。

然而,自从R1席卷全网后,关于它经常“胡说八道”的批评就不绝于耳,比如它实在太能编了,让人真真假假分不清。

除了用户端之外,李彦宏及其代表的大厂们也“苦”DeepSeek已久:一方面,大厂不得不依赖DeepSeek的泼天流量导入自身门户入口;另一方面,尽管投入大量人力物力研发深度推理模型,其成果却难以突破用户心智。

在2025百度AI开发者大会的开幕上,李彦宏直接点出全民AI大模型 DeepSeek-R1 的痛点:“只支持单一模态、幻觉率较高、又慢又贵”。一番犀利评论,再度引发了各界对DeepSeek-R1以及大模型“幻觉”的评议。

但**出现强烈幻觉的并不止DeepSeek一家,**OpenAI在其内部测试中发现:o3/o4-mini虽然全面替换了o1系列,但是幻觉现象越来越强了;国内第一个混合推理模型——阿里通义的Qwen3也在X上被网友指出幻觉现象仍旧大量存在。

img

关于幻觉的解释有很多,尤其是当推理模型问世后,大家都认为推理模型的思考模式和模型性能攀升后,幻觉就会被消灭,但事实证明:幻觉的生存能力太强了,用户们还是常常被“LLM生编硬造,逻辑闭环的幻觉操作”看呆。

不过,另有一说:大模型的幻觉也算是创作力的副产品,并不完全是桎梏。

今天我们重新讲讲大模型幻觉,看看AI圈子最大的黑箱问题到底解决了没有,解决进度到哪了?

01

李彦宏对DeepSeek-R1的批评确实有据可循。

**
**

AI数据服务公司Vectara的一项**HHEM幻觉评估中,DeepSeek-R1的幻觉率高达14.3%,**而其前代基础模型DeepSeek-V3仅为3.9%,R1的幻觉甚至要比V3的幻觉高出4倍。阿里通义的QwQ-32B-Preview的幻觉率则高达16.1%。

img

img

更值得注意的是,除了DeepSeek-R1和Qwen系列之外,纵观业内,几乎所有最先进的大模型都遭到了幻觉问题的挑战。一般来说,当新模型出现,幻觉程度就会低于其前身模型,但是这一常理性的现象并不在推理模型上适用。

OpenAI的内部评估系统卡里提供了一个具有代表性的例子:他们设计了一项名为PersonQA的基准测试,用于衡量模型回答人物信息问题的准确性。结果发现,o3在PersonQA上的幻觉率上升到了33%,几乎是被全面替代的前代模型o1(16%)的两倍。轻量版推理模型o4-mini的幻觉率高达48%。

img

在最新出炉的一版Vectara的幻觉测试中,马斯克 xAI的Grok-3比Grok-2幻觉更严重,谷歌Gemini 2.0系列中强调深度推理的Flash-Thinking版本比标准版幻觉问题更突出。

当业界追求更强推理能力的大语言模型时,事实准确性与生成内容一致性几乎无法“鱼与熊掌兼得”。

img

可见,**“幻觉”是当下大模型领域的通病,**而DeepSeek-R1正是该问题的显著案例之一。

每当新模型发布时,大家往往先入为主:当推理模型出来后,模型能力大幅度提升,幻觉就会被逐渐消灭;相反,也有一种猜测,推理模型往往要比通用模型幻觉更强。但这些观点其实全都是错的。

**
**

比如 o1 相对于 4o 并没有增加太多的幻觉,反过来也可以说,o1并没有大幅度降低幻觉。

img

o3和o4-mini 幻觉的提升连OpenAI的研究人员在系统卡论文中也说道“仍需继续研究”。可以说,在一定程度上,LLM的幻觉现象仍然是个黑盒,随着模型的不断发展,这层迷雾仍然笼罩在各大基础模型厂商的上空。

广义上,普遍认为像DeepSeek-R1这样的推理模型往往喜欢多轮思考,放大幻觉。

推理模型和深度思考模型通常采用多轮推理或长链式思考策略,通过逐步分解问题、生成中间步骤,最终得出答案。这种设计本来是为了模拟人类复杂的逻辑推理过程。但是,多轮思考也可能导致模型在每一步生成中引入微小的偏差或错误,这些偏差在后续步骤中被放大,促成多米诺骨牌效应的出现。

为什么大家再谈LLM的幻觉?除了百度等厂商为了应对DeepSeek的竞争,破除唯“DeepSeek论”之外,还有一个原因:普通用户们在实际体验中越来越感到恐惧了。

这主要是因为大模型通过大规模训练数据,已经能够构建高度自洽、逻辑几乎闭环的知识体系,模型对语义上下文的理解和生成能力越来越强,幻觉却也越来越真实了。甚至产生了一种“性能与幻觉齐飞”的诡异现象。

可以说,幻觉已经事实上不再是评判模型性能的主要标准了。

大家在日常使用中,肯定都有过这样的体验:AI 杜撰不存在的信源、生成看似真实的学术引用、“现场”构造伪造的网页链接,甚至在长长的思维链里不断“故意迎合”用户,谄媚用户。

如果只是普通的日常使用场景,幻觉现象的隐蔽性并不会降低用户信任。但是,当大模型商业化后,涉及专业领域或复杂问题时,这种不确定性就会引发用户对可靠性的质疑,甚至产生对AI本身的恐惧感。

02

李彦宏2024年曾说,过去24个月里AI行业经历的最大变革之一是大模型基本消除了“幻觉”问题。这一说法一时让各路网友觉得他出现了幻觉。

确实,某些领域(例如文生图、视频等多模态输出方面)随着模型能力的提升,幻觉现象确实已经大幅降低了。

但是,尽管幻觉问题在这些受控场景下大幅改善,在生成长文本或复杂视觉场景时仍未解决。

最直观的例子就是:每当各大厂商推出新一轮的深度思考模型时,都不得不再度老调重弹幻觉问题。可以说,幻觉问题已经被研究了好几年了,但直到今天都没有办法找到一个极好的方式克服幻觉,arXiv上一篇一篇的论文砸向这个黑盒领域。

不过,**技术开发者应对 AI 幻觉,也确实有一些手段。****目前比较主流的方式还是检索增强生成(RAG),**这个方式有点老了但是管用,也是最广的应用思路。

img

RAG,即在模型回答前**先检索资料。**英伟达 CEO黄仁勋就强调,要让AI减少幻觉,很简单,“给每个回答加一道规则:先查证再作答”。 具体而言,模型接到问题后,像搜索引擎那样查询权威来源,然后依据检索到的信息作答。如果发现引用的信息与已知事实不符,就丢弃该信息并继续查找 。通过这种方式,模型不再仅凭参数记忆回答,而是有据可依。让模型能够引入最新的网页/数据库内容,在内部机制里学会对不知道的事物说“我确实不知道”。

百度2024年发布的检索增强的文生图技术iRAG,就是为了解决文生图中的幻觉问题,结合了自身的亿级图片资源库,让生成的图片更真实、更贴合现实。

此外,一个更基本的方法是“严格控制训练数据的质量”。

当然,全面的数据治理过于困难,因为互联网语料过于复杂且知识随时间变化,像是“弱智吧”的语料就极难正确过滤。

腾讯此前发布的混元深度思考模型T1,针对长思维链数据中的幻觉和逻辑错误,训练了一个Critic批判模型来进行严格筛选。这种“双重把关”策略——即模型先产出回答,然后再核对其中的关键实体和事实,再决定是否输出,也能在一定程度上降低幻觉率。

即使有上述手段的加持,要彻底根治幻觉仍充满挑战。OpenAI就在最新报告中坦承:“为什么模型规模变大、推理能力增强后幻觉反而更多,我们目前也不完全清楚,还需要更多研究”。

03

幻觉,也并非全无益处。各大厂商正站在一个幻觉与创造力交汇的十字路口:幻觉并非纯粹的缺陷,同样也能带来模型更佳的创造力。

**
**

大模型的幻觉一般分为:事实性幻觉和忠实性幻觉。当大模型回答的内容与用户的指令或者上下文信息不一致时,可能就会出现所谓的“灵感”。 不管是违背输入文本,还是违背客观事实, “幻觉”产生的部分往往是模型发挥想象的结果。

有个专业术语叫**“外箱式创意”****,指的是“跳出既有框架的创作力” ,**这正是大模型区别于检索引擎的魅力所在。大家往往潜意识里认为AI做的是低“创意密度“的任务,无法占领诸如科幻文学这类的高创造力写作。

然而,刘慈欣对此有话说。

img

前段时间,刘慈欣在一次采访中说他曾拿自己所写的长篇中的一章发给 DeepSeek,让它在这个基础上续写。结果发现它写出来的东西,甚至要比自己写得好。这甚至让他有了一种很大的失落感。

但是,刘慈欣本人仍喜爱DeepSeek:“为什么呢?因为我想到,由于人脑的生物特性,有一些没法冲破的认知极限,但 AI 却有可能突破。如果它真的可以突破极限,那么我甘心乐意被 AI 取代。当然,现在它还做不到。未来的路还很遥远。”

OpenAI CEO奥特曼也曾提及AI的幻觉特性并非全然是坏事,在创作领域仍有积极意义。这也可能是未来LLM的一个方向。

面对几乎成为大模型固有特性的幻觉现象,要低到什么地步,我们才可以接受?

这没有固定的答案,而是依赖于应用场景。在需要精准性的高风险or涉及伦理的领域里,LLM 的幻觉固有特性几乎断绝了商业空间。

从哲学上看,这反映了人类对技术的期望:AI应比人类更可靠。折射出人类对 LLM 的角色定位,如果将 AI 仅仅视作锄头而已,那么AI几乎永不可能达到这样的标准。如果将 AI 视作天然具有幻觉特性的工具,接受“幻觉”是AI的固有特质,就要赋予AI区分虚构与现实的能力,让它在需要的时候学会说“我不知道”。

大模型岗位需求

大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

零基础入门AI大模型

今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

有需要的小伙伴,可以点击下方链接免费领取【保证100%免费

点击领取 《AI大模型&人工智能&入门进阶学习资源包》*

1.学习路线图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如果大家想领取完整的学习路线及大模型学习资料包,可以扫下方二维码获取
在这里插入图片描述
👉2.大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。(篇幅有限,仅展示部分)

img

大模型教程

👉3.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(篇幅有限,仅展示部分,公众号内领取)

img

电子书

👉4.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(篇幅有限,仅展示部分,公众号内领取)

img

大模型面试

**因篇幅有限,仅展示部分资料,**有需要的小伙伴,可以点击下方链接免费领取【保证100%免费

点击领取 《AI大模型&人工智能&入门进阶学习资源包》

**或扫描下方二维码领取 **

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐