Meta追随DeepSeek推出MoE架构Llama4系列模型
年初Deepseek低成本推出与OpenAI o1比肩的AI开源模型R1,给开源先锋的Meta带来巨大的压力,经过一段时间分析学习DeepSeek,首批推出基于混合专家 (MoE) 架构的Llama 4 系列模型 Scout、Maverick 和 Behemoth(后续发布),旨在满足从轻量级部署到企业级推理的广泛需求,为整个AI生态系统注入新的活力。一、Llama 4系列模型简介:Llama 4
前言:年初Deepseek低成本推出与OpenAI o1比肩的AI开源模型R1,给开源先锋的Meta带来巨大的压力,经过一段时间分析学习DeepSeek,首批推出基于混合专家 (MoE) 架构的Llama 4 系列模型 Scout、Maverick 和 Behemoth(后续发布),旨在满足从轻量级部署到企业级推理的广泛需求,为整个AI生态系统注入新的活力。
一、Llama 4系列模型简介:
Llama 4 是 Meta AI 最新发布的旗舰 AI 模型系列。该系列是Meta首批采用 混合专家 (MoE) 架构,支持文本、图像和视频处理的原生多模态和超长上下文窗口。Llama 4系列模型包含三款功能各异的开源模型:Scout(侦察兵)、Maverick(独行侠) 和 Behemoth(巨兽)。
二、Llama 4系列模型的能力解读
Meta这次一口气推出了三款各具特色的Llama 4模型,它们分别是:Scout(侦察兵)、Maverick(独行侠)和Behemoth(巨兽)每一个名字都似乎预示着它们各自不同的定位和能力. 其中的Scout和Maverick两款模型已经面向公众开放使用!.
在其他大型AI公司纷纷构建越来越庞大但却封闭的模型的背景下,Meta选择了另一条道路:让强大的AI变得开放和可访问。这种开放的姿态,无疑将极大地促进 AI 技术的普及和创新。
1、Llama 4 Scout:小巧、快速、聪明的“效率之王”
Llama 4 Scout是Llama 4家族中最轻量级、最高效的成员。它专为那些没有大型GPU集群的开发者和研究人员设计。Scout 的主要特点包括:
1)采用MoE架构:Scout采用了混合专家模型(Mixture of Experts, MoE)架构与16个专家模块,但在每次推理时只激活其中的2个,从而在 1090亿的总参数中实现了170亿的活跃参数。这种架构在保证性能的同时,极大地提高了计算效率。Scout还支持高达1000万个tokens 的上下文窗口,这是迄今为止任何开源 LLM 中最长的上下文长度。
2)出色的效率:Scout可以在单个H100 GPU上使用Int4量化高效运行. 这使得高性能AI应用的成本大大降低。
3)性能对标:在基准测试中,Scout 的性能超越了同类模型,如 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
4)多模态能力:Scout经过了200种语言的预训练,其中100种语言的训练数据超过10 亿个tokens。它还接受了多样化的图像和视频数据训练,单个prompt 最多支持 8 张图片。
5)视觉推理能力:得益于先进的图像区域接地(image region grounding)技术,Scout 能够实现精确的视觉推理。
应用场景:凭借其高效、长上下文和多模态能力,Scout非常适合构建长上下文记忆的聊天机器人、代码摘要工具、教育问答机器人以及针对移动或嵌入式系统的优化助手。值得一提的是,Scout 在长上下文任务中表现出色,例如在高达1000 万tokens 的文本或 20 小时的视频中实现近乎完美的检索能力。它在代码生成方面也表现良好,适用于简单的到中级的编程任务,使其成为教育编码助手的理想选择。
2、Llama 4 Maverick:强大、可靠的“全能选手”
Llama 4 Maverick是Llama 4系列的旗舰开源模型。它在设计上兼顾了强大的性能和相对的效率,适用于高级推理、编码和多模态应用。虽然比 Scout 更强大,但Maverick仍然采用相同的 MoE 策略来保持效率。
1)采用MoE架构:Maverick同样采用混合专家模型(MoE)架构与128个路由专家和一个共享专家,在推理时激活其中的170亿参数,总参数达到 4000 亿. 它通过文本和图像输入的早期融合(early fusion) 进行训练,同样支持最多 8 张图片输入。
2)高效的运行:Maverick可以在单个H100 DGX主机上高效运行或可以跨多个GPU进行扩展。
3)性能对标:Maverick在LMSYS Chatbot Arena上取得了1417的 ELO评分,超越了GPT-4o和Gemini 2.0 Flash,并在推理、编码和多语言能力方面与DeepSeek v3.1相媲美. 然而,Meta 指出,Maverick 在某些方面不如Google的Gemini 2.5 Pro、Anthropic 的 Claude 3.7 Sonnet 和OpenAI 的 GPT-4.5。
4)训练技术:Maverick的训练采用了MetaP超参数缩放,FP8精度训练以及一个包含30万亿tokens的数据集.。它在图像理解、多语言推理和成本效益方面超越了Llama 3.3 70B模型。Maverick预训练了200 种语言,其中100多种语言的tokens超过10亿,其多语言tokens 比 Llama 3 多10倍。
5)多模态能力:Maverick具备强大的图像理解能力和多语言推理能力。
应用场景:Maverick的强大性能使其非常适合AI辅助编程、企业级文档理解和教育辅导系统等复杂应用。它在知识密集型任务中表现优于GPT-4o和 Gemini1.5Flash,在生成功能代码和解决算法问题方面与GPT-4 相匹敌. Maverick在视觉问题回答方面也表现出色,展示了其强大的视觉语言能力。
3、Llama 4 Behemoth:Meta 内部的“最强大脑”和”教师模型“
Llama 4 Behemoth 是 Meta 迄今为止最大的模型. 虽然Behemoth目前不对公众开放使用,但它在帮助Scout 和Maverick达到高水平方面发挥了至关重要的作用。
1)极致的规模与能力:Behemoth 采用了混合专家模型(MoE)架构与 16个专家模块,在推理时激活2880亿参数,总参数接近2万亿。它是原生多模态的,在推理、数学和视觉语言任务方面表现出色。
2)性能对标:在STEM基准测试(如 MATH-500、GPQA Diamond 和 BIG-bench)中,Behemoth 的性能虽优于GPT-4.5、Claude Sonnet 3.7 和Gemini 2.0 Pro,但不如 Gemini 2.5 Pro。
3)关键的“教师模型”角色:Behemoth 作为教师模型,通过一种新颖的损失函数进行协同蒸馏(co-distillation),指导Scout和Maverick的训练. 这种方法能够平衡软目标和硬目标监督,显著提升学生模型的性能。
4)训练技术:Behemoth的训练使用了FP8精度,针对MoE并行进行了优化,实现了比Llama 3快10倍的速度提升,并采用了新的强化学习策略,包括硬prompt采样、多能力批次构建以及从各种系统指令中采样. 为了最大限度地提高性能,Behemoth在后训练中不得不剪掉 95% 的 SFT 数据。
重要意义:虽然不直接面向公众,但 Behemoth 作为 Meta 内部评估和模型蒸馏的黄金标准,对于提升整个 Llama 4 模型家族的性能至关重要。
三、Llama 4 的核心技术亮点
除了每个模型的独特特点外,Llama 4 系列在技术层面也取得了显著的进步.
1)混合专家模型(MoE)架构的全面应用:Llama 4 系列是Meta首个全面采用MoE架构的模型。这种架构通过将数据处理任务分解为子任务,并将其委派给更小的、专业的“专家”模型,从而在训练和推理时都更加高效。例如,Maverick 模型拥有 4000 亿总参数,但在推理过程中只有170亿活跃参数分布在128 个专家中。Scout模型拥有1090亿总参数,推理时只有 170亿活跃参数分布在16个专家中。
2)原生多模态能力:Llama 4模型从一开始就具备处理文本、图像和视频的能力。它们采用了早期融合(early fusion)架构,将文本和视觉输入联合训练到一个共享的模型骨干中。Meta 还改进了 Llama 4 中的视觉编码器,它基于MetaCLIP,但与冻结的Llama模型联合训练,以更好地适应 LLM。
3)超长的上下文理解能力:尤其是 Llama 4 Scout,其 1000万tokens 的上下文窗口令人瞩目。这为处理海量信息和进行更深层次的理解提供了前所未有的潜力。为了实现如此长的上下文长度,Llama 4 的架构中引入了一项关键创新,即使用没有位置嵌入的交错注意力层。此外,Meta还采用了在推理时调整注意力温度缩放的技术,以增强长度的泛化能力,称之为 iRoPE架构。Scout模型在256K 上下文长度下进行了预训练和后训练,赋予了基础模型先进的长度泛化能力。
4)先进的训练和后训练技术:Meta在 Llama 4的训练过程中引入了多种创新技术。在预训练阶段,除了使用包含超过30 万亿tokens的多模态数据集,还采用了 MetaP 超参数调优技术,该技术允许可靠地设置每层学习率和初始化尺度,这些参数在不同的批大小、模型宽度、深度和训练 tokens 值之间能够很好地迁移。所有模型都使用FP8 精度进行训练,提高了计算效率,同时不牺牲模型质量。Meta 在“中期训练”中继续训练模型,使用专门的数据集进行长上下文扩展等新的训练方法来提高核心能力。在后训练阶段,Meta采用了轻量级监督微调(SFT),在线强化学习(RL),和直接偏好优化(DPO)等方法。一个关键的教训是,SFT 和 DPO 可能会过度约束模型,限制在线 RL 阶段的探索,并导致次优的准确性,尤其是在推理、编码和数学领域。为了解决这个问题,Meta 过滤掉了超过50%被 Llama模型标记为容易的数据,并对剩余的较难数据集进行了轻量级SFT。在随后的多模态在线 RL 阶段,通过仔细选择较难的prompts,性能得到了显著提升。Meta 还实施了持续的在线 RL策略,在训练模型和使用模型不断过滤和保留中等到较难的 prompts 之间交替进行。最后,进行了轻量级的 DPO 以处理与模型响应质量相关的极端情况,有效地平衡了模型的智能和对话能力。此外,Behemoth作为教师模型,通过协同蒸馏指导 Scout 和 Maverick 的训练,Meta 甚至引入了一种新的损失函数来动态平衡软目标和硬目标监督。
5)对偏见的重视与改进:Meta致力于减少 AI 模型中的偏见。Llama 4 在处理有争议的政治和社会话题时,相比 Llama 3 表现得更加平衡,并且更少拒绝回答相关问题。Meta 的目标是消除其 AI 模型中的偏见,并确保 Llama 能够理解和表达有争议问题的双方观点。
6)安全保障:Meta在Llama 4的开发过程中,从预训练到后训练的各个环节都融入了安全措施。 在系统层面,Meta还开源了多种安全工具,帮助开发者识别和防范潜在的有害输入和输出,包括:
-
Llama Guard:用于检测输入或输出是否违反开发者设定的策略。
-
Prompt Guard:用于检测恶意提示(越狱攻击)和包含注入输入的提示(提示注入)。
-
CyberSecEval:帮助开发者评估和降低生成式AI的网络安全风险。
此外,Meta还采用了系统性的模型测试方法,包括使用对抗性动态探测技术进行自动化和人工测试,以发现和修复潜在的风险。 Meta还开发了一种名为"生成式进攻型智能体测试"(GOAT:Generative Offensive Agent Testing)的新工具,通过模拟多轮对抗性交互,更有效地发现模型的潜在漏洞。
四、开源与生态:共建AI未来
与之前的Llama系列一样,Llama 4 Scout和Maverick也以开源的方式发布。对于开发者、研究人员以及对 AI 技术感兴趣的普通用户来说,体验 Llama 4 的强大能力有多种途径。
1)llama.meta.com:这是 Meta 官方的 Llama 模型中心. 您可以在这里找到模型卡片、论文、技术文档,并 下载 Scout 和 Maverick 的开放权重. 开发者可以将模型下载到本地或云端运行。
2)Hugging Face:Hugging Face 平台托管了 Llama 4 的即用版本。您可以直接在浏览器中使用 推理端点测试模型,或者通过 Transformers 库部署它们。Hugging Face 还支持与 Gradio 和 Streamlit 等常用工具的集成。
3)Meta 应用:Llama 4 模型也驱动着 Meta 在 WhatsApp、Instagram、Messenger 和 Facebook 中提供的 Meta AI 助手。用户可以直接在日常使用的应用中体验 Llama 4 的对话能力。目前,Meta AI 助手已在 40 个国家/地区更新为使用 Llama 4。多模态功能目前仅在美国以英语提供。
4)网页界面:您还可以通过 Meta 提供的网页界面直接访问最新的 Llama 4 模型并进行体验,您可以轻松地在 Meta 的任何应用程序或网页界面上尝试最新的 Llama 4 模型。
需要注意的是,目前在 Meta 的应用或网页界面中,用户还不能直接选择使用 Scout、Maverick 或 Behemoth 中的特定模型. Meta AI 尚未提供选择模型的选项。
然而,值得注意的是,Llama 4的许可协议仍然存在一些限制。例如,欧盟境内的企业或主要营业地点在欧盟的企业被禁止使用或分发这些模型。此外,与之前的Llama版本一样,月活跃用户超过7亿的公司需要向Meta申请特殊许可,Meta有权批准或拒绝该申请。这些限制也引发了一些关于Llama是否真正属于“开源”的讨论。
尽管如此,Llama 4的发布仍然将极大地促进AI生态的发展。Meta正与广泛的合作伙伴合作,包括云计算平台、硬件厂商、以及全球服务集成商等,旨在将Llama 4推广到更广泛的领域。
Meta还宣布将于4月29日举办LlamaCon大会,届时将分享更多关于其AI模型和产品的未来计划。
四、Llama 4 的发布意味着什么?
Llama 4 系列模型的发布,对于整个 AI 领域来说都具有重要的意义.
1)加速开放 AI 生态系统的发展:Meta 持续投入并开源其最先进的 AI 模型,这无疑将极大地促进开放 AI 生态系统的发展. 更多的开发者和研究人员可以基于 Llama 4 进行创新,构建各种新的应用和服务。
2)降低AI应用的门槛:Scout 模型的高效率和相对较低的硬件要求,使得更多开发者即使没有大型 GPU 集群也能使用顶尖的 AI 技术. 这有助于推动 AI 技术在中小企业和个人开发者中的普及。
3)引发更激烈的技术竞争:Llama 4 在多个基准测试中展现出的强大竞争力,将促使其他AI 公司加大研发投入,从而推动整个行业的技术进步,最终受益的将是广大用户。
5)赋能更智能的应用场景:随着更强的Llama 4开源系列模型的推出,可以期待未来出现更多更智能的应用,例如更自然的对话助手,更精准的图像和视频分析工具,更强大的代码生成和理解系统等。
结语
Meta Llama 4系列的发布,无疑是Meta人工智能的一个重要里程碑。其原生的多模态能力、高效的混合专家架构以及在多项基准测试中的出色表现,都预示着Meta新一代AI模型的强大潜力。虽然在伦理、安全和许可方面仍面临一些挑战,Llama 4系列将成为构建未来智能应用的一支重要力量。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐
所有评论(0)