Meta 发布了最新 AI 模型系列 ——Llama 4,这是其 Llama 家族的最新成员。该系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。所有这些模型都经过了大量未标注的文本、图像和视频数据的训练,以使它们具备广泛的视觉理解能力。

在大模型竞技场(Arena),Llama 4 Maverick 的总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一;大幅超越了自家 Llama 3 405B,得分从 1268 提升到了 1417;风格控制排名第五。

Meta最新发布的Llama 4系列大模型引发了广泛关注,其技术革新与争议并存。

一、核心技术创新

1.  混合专家架构(MoE)的全面应用

Llama 4全系首次采用MoE架构,通过动态调用不同“专家”子模型提升效率。例如,Llama 4 Maverick拥有128个专家和170亿激活参数,总参数达4000亿,但推理时仅需调用部分参数,显著降低计算成本(单H100 GPU可部署)。Meta强调,MoE架构在固定算力预算下能实现更高模型质量,同时支持多模态任务的高效处理。

2.  原生多模态与早期融合技术

模型通过“早期融合”将文本、图像、视频等模态数据统一整合至模型骨干,支持联合预训练。例如,Llama 4 Scout可处理1000万token的上下文(相当于15000页文本),并支持多图像输入(最多48张),在医学、科学等领域潜力显著。

3.  突破性训练技术

    MetaP超参数优化:通过小规模实验推导大规模模型超参数,降低训练试错成本,尤其对2万亿参数的Behemoth模型至关重要。

    长上下文支持:采用iRoPE架构,结合无位置编码的全局注意力层和温度缩放技术,实现从256K训练长度到千万级上下文的泛化能力。

二、性能表现与优势

基准测试成绩亮眼

    Llama 4 Maverick:在ChartQA、DocVQA等多模态任务中超越GPT-4o和Gemini 2.0 Flash,推理能力与DeepSeek v3.1相当,但激活参数仅为后者一半。

    Llama 4 Behemoth(预览版):在MATH-500、GPQA Diamond等STEM基准中优于GPT-4.5和Claude 3.7 Sonnet,总参数达2万亿,定位为“教师模型”。

成本与部署优势

Llama 4 Maverick的推理成本为每百万token 0.19-0.49美元,远低于GPT-4o的4.38美元,且支持单卡H100部署,适合企业级应用。

多语言与安全性改进

模型支持12种语言,预训练数据量是Llama 3的10倍,并通过Llama Guard等工具强化安全对齐,宣称在政治偏见控制上更平衡。

三、争议与挑战

实际应用表现不及预期

社区测试显示,Llama 4在编程任务(如“六边形小球测试”)中表现逊于DeepSeek R1和Gemini 2.5 Pro,汉英互译BLEU分数落后竞品11分,多语言支持仅限英语且集中于美国市场。

硬件门槛与社区适配性

即使量化后,模型仍需H100级别GPU运行,消费级设备无法部署,与Mistral等轻量级模型相比缺乏竞争力。开发者批评其“仅依赖庞大算力堆砌”,未能解决实际部署痛点。

开源许可限制

新许可证要求月活超7亿的公司需申请特殊授权,且命名需包含“Llama”,被指限制商业化自由度,可能削弱开源社区参与热情。

Llama 4标志着Meta在开源AI领域的进一步深耕,其技术路线(如MoE与多模态融合)可能引领行业方向。然而,模型的实际应用短板和社区信任危机(如与Llama 2/3时代相比,生态支持减少)仍需Meta通过后续迭代解决。即将召开的LlamaCon大会或透露更多优化计划,例如尚未发布的“Llama 4 Reasoning”模型可能补足推理能力缺陷。


推荐阅读

DeepSeek实践指导手册、人工智能在软件测试中的应用、我们是如何测试人工智能的?

Deepseek52条喂饭指令

在本地部署属于自己的 DeepSeek 模型,搭建AI 应用平台

DeepSeek 大模型与智能体公开课,带你从零开始,掌握 AI 的核心技术,开启智能未来!

深度解析:如何通过DeepSeek优化软件测试开发工作,提升效率与准确度

DeepSeek、文心一言、Kimi、豆包、可灵……谁才是你的最佳AI助手?

从零到一:如何构建一个智能化测试平台?

DeepSeek-R1+ Ollama 本地部署全攻略

DeepSeek与Playwright结合:利用AI提升自动化测试脚本生成与覆盖率优化

DeepSeek大模型6大部署模式解析与探索测试开发技术赋能点

爱测智能化服务平台

测开人必看!0代码+AI驱动,测试效率飙升300% ——霍格沃兹测试开发学社‌重磅上新‌「爱测智能化服务平台」限时开放体验!

一码难求的Manus:智能体技术如何重构生产力?测试领域又有哪些新机遇?

开源工具

AppCrawler 开源版
https://github.com/seveniruby/AppCrawler

Hogwarts-Browser-Use 开源版
指导安装贴:hogwarts-browser-use - 开源项目 - 爱测-测试人社区


专业版 (7天免费试用)

自动遍历测试框架 AppCrawler 专业版
通用数据驱动测试框架 hogwarts-ddt 专业版
测试智能体框架 hogwarts-agent 专业版

学社提供的资源

教育官网:霍格沃兹测试开发学社
科技官网:测吧(北京)科技有限公司
火焰杯就业选拔赛:火焰杯就业选拔赛 - 霍格沃兹测试开发学社
火焰杯职业竞赛:火焰杯职业竞赛 - 霍格沃兹测试开发学社
学习路线图:霍格沃兹测试开发学社
公益社区论坛:爱测-测试人社区 - 软件测试开发爱好者的交流社区,交流范围涵盖软件测试、自动化测试、UI测试、接口测试、性能测试、安全测试、测试开发、测试平台、开源测试、测试教程、测试面试题、appium、selenium、jmeter、jenkins
公众号:霍格沃兹测试学院
视频号:霍格沃兹软件测试
ChatGPT体验地址:霍格沃兹测试开发学社

Docker

Docker cp命令详解:在Docker容器和主机之间复制文件/文件夹

Docker pull 命令详解:从镜像仓库获取镜像

深入理解 Docker Run 命令:从入门到精通

Docker Exec 命令详解与实践指南

Docker Kill/Pause/Unpause命令详细使用指南

Docker Logs命令详解

Selenium

多任务一次搞定!selenium自动化复用浏览器技巧大揭秘

如何使用Selenium处理隐藏元素

软件测试/测试开发/全日制|selenium NoSuchDriverException问题解决

软件测试/人工智能|解决Selenium中的异常问题:“error sending request for url”

Python

使用Python爬取豆瓣电影影评:从数据收集到情感分析

如何使用 Python 实现十进制转二进制的程序

Python教程:如何获取颜色的RGB值

Python处理日期的利器—日期转换指南

Python字符串的编码与解码

 

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐