摘要:Meta旗下开源大模型Llama 4发布仅24小时便陷入“作弊门”风暴。内部员工实名指控其通过混入测试集数据“刷榜”,导致模型在代码生成、物理模拟等核心能力上表现崩盘。事件引发高管辞职潮、开发者社区声讨,AI行业透明度与伦理争议再成焦点。


一、事件爆发:从高调发布到全面翻车

2025年4月7日,Meta以“Llama 4日”为主题发布新一代开源模型,宣称其具备2万亿参数规模、原生多模态能力,并在LM Arena基准测试中超越DeepSeek V3。然而次日(4月8日),实测结果与宣传严重不符,引发技术社区大规模质疑:

1. 核心能力全面落后

  • 编码能力垫底:在aider polyglot多语言编程基准测试中,Llama 4 Maverick(402B参数)得分仅16%,远低于GPT-4o、Gemini Flash等竞品,甚至被批评为“糟糕的编程模型”。
  • 物理模拟失真:网友Flavio Adamo对比测试显示,Llama 4生成的旋转多边形动画存在几何缺陷,小球运动违反物理规律,而GPT-4o表现更稳定。
  • 长文本处理缺陷:Llama 4 Scout(109B参数)在16K tokens后召回率暴跌至22%,长文本处理能力被指“中看不中用”。

二、内部爆料:测试集混入训练的“作弊”指控

1. 训练过程违规操作

  • 后训练阶段混入测试集:内部员工"dliudliu"爆料称,因Llama 4多次训练未达开源SOTA水平,高层建议在后训练阶段混入多个基准测试集数据,通过“灌题”提升指标。
  • 模型版本差异:LM Arena展示的“实验性聊天版本”与公开下载版行为显著不同,被批“区别对待用户”。

2. 高管辞职潮

  • 员工集体抗议:员工"dliudliu"提交辞职信并要求从技术报告中除名,称“无法接受数据造假”。
  • 高层变动:Meta AI研究副总裁Joelle Pineau宣布5月底离职,GenAI副总裁Ahmad Al-Dahle面临压力。

三、技术争议与行业影响

1. 模型架构缺陷

  • 参数规模与性能倒挂:402B参数的Maverick编码能力仅与32B参数的Qwen-QwQ-32B相当,109B参数的Scout表现接近13B参数的Grok-2。
  • 多模态能力存疑:官方展示的“大海捞针”长文本案例被指缺乏实际场景验证。

2. 行业伦理冲击

  • 透明度危机:沃顿商学院教授Ethan Mollick指出,过度优化基准测试的模型难以区分真实创新,损害行业公信力。
  • 开源生态震荡:Gemma、DeepSeek等新兴模型崛起,Meta面临“开源王座”被替代风险。

四、Meta的回应与未来挑战

1. 官方态度分化

  • 否认作弊:研究科学家Licheng Yu实名回应称“从未过拟合测试集”,要求质疑者提供具体证据。
  • 改进承诺:Meta表示将收集反馈优化下一版本,但未回应测试集混用指控。

2. 长期风险

  • 信誉修复难题:若作弊指控坐实,Meta可能面临法律诉讼和合作伙伴流失。
  • 技术路线调整:需平衡参数规模与实用性,探索轻量化模型开发路径。

五、结语:AI行业的十字路口

Llama 4事件不仅是Meta的公关危机,更是对整个AI行业的警示。当技术竞赛演变为“指标军备竞赛”,其代价可能是创新力的枯竭与用户信任的崩塌。正如网友所言:“AI的未来,不应是参数的狂欢,而是价值的回归。”

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐