情况是这样的:我发现DEEPSEEK输出的内容,越来越多的是胡编乱造的了。例如:擅自编出一些奖项张冠李戴,一些技术指标极端不实际,甚至会编出不存在的人物和公司,这是为什么?

还有一下报道和研究也佐证了我的感受:

首先,搜索结果中的南方都市报文章提到 DeepSeek 被用户投诉生成虚假资料,如将《平凡的世界》作者写成朱大建,霍光的朝代错误。这说明用户的问题确实存在,且有多个用户反馈。这验证了 DEEPSEEK 存在 “幻觉” 问题,即生成看似合理但错误的信息。

其次,光明网的文章指出 DeepSeek 在 “算命” 场景中频繁推荐水晶饰品,这可能涉及商业利益驱动,导致模型生成内容偏向特定方向。这可能解释了为什么模型会编造不存在的产品或服务,如用户提到的虚构公司。

另外,环球网的文章提到 AI 幻觉的成因,包括训练数据的局限性和过拟合问题。特别是训练数据中可能包含错误或过时的信息,导致模型学习到这些错误。例如, 提到 DeepSeek V3 的训练数据可能包含来自其他模型(如 GPT-4)的输出,导致 “幻觉” 现象。这支持了训练数据质量问题的假设。

经视直播的报道中,DeepSeek 官方承认模型存在局限性,如无法获取实时信息、处理专业领域时可能出错,并建议用户二次验证。这说明官方已意识到问题,但可能尚未完全解决。用户提到的技术指标不实际可能与模型在专业领域的不足有关。

此外,搜索结果提到 DeepSeek 的开源策略和成本优化,可能导致在训练过程中更注重效率而非数据质量,从而影响输出准确性。例如, DeepSeek V3 通过 MoE 架构降低成本,但可能牺牲了部分准确性。

那么,我们尝试分析一下原因:

以 DeepSeek 为代表的大模型出现虚构内容的问题,本质上是人工智能在概率预测框架下的系统性局限,具体可从以下维度展开分析:

一、技术底层的 "概率幻觉" 机制

  1. 统计规律的局限性
    大模型的核心是通过海量文本学习语言模式,其本质是预测下一个词的概率分布。例如,当模型遇到 "诺贝尔奖" 与 "人工智能" 的组合时,会优先输出 "图灵奖"(因两者在语料中高频共现),而非真实的诺贝尔奖项设置。这种基于统计关联的预测,在缺乏权威知识库验证时,容易产生看似合理但错误的结论。

  2. 推理能力的断层
    即使是推理型模型(如 DeepSeek R1),其长思维链能力仍依赖训练数据中的逻辑模式。当处理跨领域知识(如将西汉霍光与清朝官职关联)时,模型可能因训练数据中缺乏明确时间线,而生成混淆历史的内容。

  3. 多模态信息的整合困境
    在处理技术指标时,模型可能将不同领域的参数(如芯片制程、算法效率)进行错误拼接。例如,将某款 GPU 的晶体管数量与另一款的能效比组合,形成 "1nm 工艺、100TOPS/W" 的极端不实际指标。

二、训练数据的结构性缺陷

  1. 语料污染与版权争议
    DeepSeek V3 的训练数据中可能混入了大量由 GPT-4 生成的内容9,这些二次创作的文本本身存在错误或虚构成分。例如,某篇 AI 生成的行业报告中虚构了 "全球 AI 创新奖",该奖项被 DeepSeek 学习后,进一步传播成为 "事实"。

  2. 领域知识的不均衡
    模型在训练时可能过度依赖某些数据源。例如,法律领域的训练数据集中于过时的司法解释,导致生成的法律文书引用已废止的条款5。而在科技领域,由于技术迭代快,模型可能沿用 2023 年前的参数(如将 2025 年的芯片制程仍描述为 3nm)。

  3. 商业利益的导向性
    在 "AI 算命" 等场景中,模型会主动推荐水晶饰品等商品2,这种商业嵌入可能导致内容偏离事实。当用户询问 "如何提升财运" 时,模型可能编造 "佩戴绿幽灵水晶可增强财富磁场" 的伪科学结论。

三、行业生态的现实制约

  1. 快速迭代的压力
    为抢占市场,DeepSeek 在 2025 年初密集推出 V3 和 R1 模型,这种快速迭代可能导致测试不充分。例如,R1 模型在法律领域的错误率较高,部分用户因依赖其生成的诉讼文书而败诉。

  2. 开源模式的双刃剑
    尽管开源降低了使用门槛,但也导致模型被滥用。第三方开发者可能通过微调将 DeepSeek 用于生成虚假新闻、学术论文等3,进一步放大了内容风险。

  3. 监管与伦理的滞后
    当前 AI 生成内容的版权界定、责任归属等问题尚未明确9。DeepSeek 在用户协议中声明 "不承担专业建议责任",但实际应用中,用户可能因缺乏专业知识而误信虚构内容。

四、用户的应对策略

  1. 指令约束
    在提问时明确要求事实核查,例如:"请基于 2024 年《自然》期刊的研究回答,若无法确认请标注不确定性"。使用 "联网搜索" 功能可减少过时信息的干扰。

  2. 多源验证
    对关键信息(如奖项、技术参数),需通过权威数据库(如 IEEE Xplore、中国知网)或专业工具(如FactCheck.org)进行交叉比对。例如,验证某公司是否存在时,可查询国家企业信用信息公示系统。

  3. 场景适配
    在医疗、法律等高风险领域,应将 AI 输出作为参考而非依据。例如,医生可结合 DeepSeek 的诊断建议,但必须通过临床检查最终确认。

  4. 反馈机制
    通过 DeepSeek 官方渠道报告错误案例,帮助模型迭代优化。例如,某用户反馈 "朱大建" 应为 "路遥" 后,模型在后续版本中修正了该错误。

五、技术发展的未来方向

  1. 增强事实核查能力
    DeepSeek 已在部分场景中集成外部知识库(如 Wikidata),未来可能通过实时 API 调用实现内容验证。

  2. 改进训练策略
    采用 "冷启动" 强化学习(如 R1 模型的训练方式),减少对低质量语料的依赖。同时,引入多模态数据(如结构化表格、专利文档)提升专业领域准确性。

  3. 可解释性优化
    通过 CoT(思维链)技术公开推理过程7,帮助用户识别逻辑漏洞。例如,生成技术指标时,同步展示数据来源和计算步骤。

  4. 行业自律与监管
    参考欧盟《人工智能法案》,对生成内容进行分类标注(如 "AI 创作"" 事实核查中 "),引导用户合理使用。

结语

DeepSeek 等模型的 "胡编乱造" 现象,本质上是人工智能从 "工具" 向 "助手" 演进过程中的阶段性问题。随着技术进步(如更严格的训练数据清洗、实时验证机制)和行业规范完善,这类问题将逐步改善。作为用户,需在享受 AI 高效性的同时,保持批判性思维,构建 "人机协同" 的认知模式。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐