Meta 发布了最新 AI 模型系列 ——Llama 4

Meta 发布了最新 AI 模型系列 ——Llama 4，这是其 Llama 家族的最新成员。该系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。所有这些模型都经过了大量未标注的文本、图像和视频数据的训练，以使它们具备广泛的视觉理解能力。在大模型竞技场（Arena），Llama 4 Maverick 的总排名第二，成为第四个突破 1400

霍格沃兹测试开发学社

852人浏览 · 2025-04-21 13:37:24

霍格沃兹测试开发学社 · 2025-04-21 13:37:24 发布

Meta 发布了最新 AI 模型系列 ——Llama 4，这是其 Llama 家族的最新成员。该系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。所有这些模型都经过了大量未标注的文本、图像和视频数据的训练，以使它们具备广泛的视觉理解能力。

在大模型竞技场（Arena），Llama 4 Maverick 的总排名第二，成为第四个突破 1400 分的大模型。其中开放模型排名第一，超越了 DeepSeek；在困难提示词、编程、数学、创意写作等任务中排名均为第一；大幅超越了自家 Llama 3 405B，得分从 1268 提升到了 1417；风格控制排名第五。

Meta最新发布的Llama 4系列大模型引发了广泛关注，其技术革新与争议并存。

一、核心技术创新

1. 混合专家架构（MoE）的全面应用

Llama 4全系首次采用MoE架构，通过动态调用不同“专家”子模型提升效率。例如，Llama 4 Maverick拥有128个专家和170亿激活参数，总参数达4000亿，但推理时仅需调用部分参数，显著降低计算成本（单H100 GPU可部署）。Meta强调，MoE架构在固定算力预算下能实现更高模型质量，同时支持多模态任务的高效处理。

2. 原生多模态与早期融合技术

模型通过“早期融合”将文本、图像、视频等模态数据统一整合至模型骨干，支持联合预训练。例如，Llama 4 Scout可处理1000万token的上下文（相当于15000页文本），并支持多图像输入（最多48张），在医学、科学等领域潜力显著。

3. 突破性训练技术

MetaP超参数优化：通过小规模实验推导大规模模型超参数，降低训练试错成本，尤其对2万亿参数的Behemoth模型至关重要。

长上下文支持：采用iRoPE架构，结合无位置编码的全局注意力层和温度缩放技术，实现从256K训练长度到千万级上下文的泛化能力。

二、性能表现与优势

基准测试成绩亮眼

Llama 4 Maverick：在ChartQA、DocVQA等多模态任务中超越GPT-4o和Gemini 2.0 Flash，推理能力与DeepSeek v3.1相当，但激活参数仅为后者一半。

Llama 4 Behemoth（预览版）：在MATH-500、GPQA Diamond等STEM基准中优于GPT-4.5和Claude 3.7 Sonnet，总参数达2万亿，定位为“教师模型”。

成本与部署优势

Llama 4 Maverick的推理成本为每百万token 0.19-0.49美元，远低于GPT-4o的4.38美元，且支持单卡H100部署，适合企业级应用。

多语言与安全性改进

模型支持12种语言，预训练数据量是Llama 3的10倍，并通过Llama Guard等工具强化安全对齐，宣称在政治偏见控制上更平衡。

三、争议与挑战

实际应用表现不及预期

社区测试显示，Llama 4在编程任务（如“六边形小球测试”）中表现逊于DeepSeek R1和Gemini 2.5 Pro，汉英互译BLEU分数落后竞品11分，多语言支持仅限英语且集中于美国市场。

硬件门槛与社区适配性

即使量化后，模型仍需H100级别GPU运行，消费级设备无法部署，与Mistral等轻量级模型相比缺乏竞争力。开发者批评其“仅依赖庞大算力堆砌”，未能解决实际部署痛点。

开源许可限制

新许可证要求月活超7亿的公司需申请特殊授权，且命名需包含“Llama”，被指限制商业化自由度，可能削弱开源社区参与热情。

Llama 4标志着Meta在开源AI领域的进一步深耕，其技术路线（如MoE与多模态融合）可能引领行业方向。然而，模型的实际应用短板和社区信任危机（如与Llama 2/3时代相比，生态支持减少）仍需Meta通过后续迭代解决。即将召开的LlamaCon大会或透露更多优化计划，例如尚未发布的“Llama 4 Reasoning”模型可能补足推理能力缺陷。