2026年3月 人工智能前沿详细总结(包括Gemini 3.1 Flash-Lite、GPT-5.4、SkyReels 4、Mureka V9、GigaWorld-1等)
【代码】2026年3月 人工智能前沿详细总结(包括Gemini 3.1 Flash-Lite、GPT-5.4、SkyReels 4、Mureka V9、GigaWorld-1等)
·
3月4日
【多模态大模型】Gemini 3.1 Flash-Lite 发布【重要】
- 今天,谷歌正式上线了新模型
Gemini 3.1 Flash-Lite。该模型的速度达到了 363 token/s,输出价格为 1.5美元 / 1M token,跑分上更是超越了 GPT-5 mini 和 Claude 4.5 Haiku。 Gemini 3.1 Flash-Lite的最大特点是速度快,几乎可以做到“瞬时输出”,同时价格很低。同一任务,Gemini 2.5 Flash的运行时间需要33分钟,而Gemini 3.1 Flash-Lite仅用时4分钟,且 token 数量消耗最少,正确率最高。- 尽管
Gemini 3.1 Flash-Lite模型很小,但是其多模态理解能力的基准测试结果仍然十分强悍,只是在代码生成效果方面存在一定的短板。 - 目前,开发者可以通过 Google AI Studio 的 Gemini API 体验预览版,企业用户可以通过 Vertex AI 接入。
【大语言模型】GPT-5.3 Instant 发布
- 今天凌晨,OpenAI 发布了最新模型
GPT-5.3 Instant。该模型为GPT-5.3的速度优化版本,适合快速的日常查询、草稿写作和即时翻译等任务。 - 相较于之前的模型,
GPT-5.3减少了模型回复的尴尬感,去掉了机械重复、冗余的免责声明等 AI 腔调,沟通更加自然流畅,同时回答质量更加精准,在联网搜索和写作能力上都得到了增强。 - 目前,该模型已经在 ChatGPT 中上线,开发者也可以通过 API 进行调用。前一代模型
GPT-5.2 Instant则会在付费用户的旧版模型区保留三个月,之后退役。
【OpenClaw 应用】阿里发布桌面智能体 QoderWork
- 今天,阿里发布了首个桌面智能体
QoderWork,杀入 Windows 生态。相较于OpenClaw,QoderWork具备了更完美的本地读写和自主执行的核心能力,并且是一款真正成熟、打磨到位的商业化办公桌面智能体。 - 用户不需要进行繁琐的配置和部署,只需要下载
QoderWork,即可通过简单的对话按需调用本地应用。
3月6日
【多模态大模型】GPT-5.4 系列模型发布【重要】
- 今天,OpenAI 正式发布了新模型 GPT-5.4,并在该模型中引入了一种被称为“原生的计算机使用”的新模式。
GPT-5.4在知识工作和网络搜索方面表现出色,具有原生的计算机使用能力。该模型可以直接操作软件,使用工具、浏览网页、执行工作流程,并规划跨应用程序的复杂任务,最多可以处理 1M 上下文 token。- 在基准测试中,
GPT-5.4 Pro以 38% 的成绩击败了最难的数学基准测试 FrontierMath Tier,而此前最佳的开源模型成绩为Kimi K2.5创造的 4.2%。在视觉感知、代码生成方面也相较于上一代模型有了明显提升。另外,模型还引入了工具搜索功能,并改进了工具调用。 - 目前,
GPT-5.4已经在 OpenAI 的 API 和 Codex 中提供,并正在 ChatGPT 中逐步推出(面向 ChatGPT Plus、Team 和 Pro 用户开放),取代GPT-5.2 Thinking模型。另外,OpenAI 也在 ChatGPT 和 API 中推出了GPT-5.4 Pro,该版本模型面向 Pro 用户和企业版用户开放,适合解决更复杂的任务。但是在 API 中,GPT-5.4的调用价格高于GPT-5.2。
3月10日
【OpenClaw 应用】智谱发布一分钟装好的龙虾 AutoClaw
- 今天,智谱发布了可以把
OpenClaw打包为一键安装的桌面应用的AutoClaw(中文名澳龙),专门用于解决原版OpenClaw难以安装的问题。用户只需要下载、双击、登录就可以一分钟安装完成。 AutoClaw并非OpenClaw的阉割版,而是和其具有相同的内核,能力也一个不少。而且,AutoClaw把龙虾装进了飞书,更好地帮助用户办公。- 为了辅助
AutoClaw更好地进行工作,智谱为其打造了专门的用于智能体场景的模型Pony-Alpha-2,该模型的前身就是前段时间在 OpenRouter 上表现亮眼的Poly Alpha。 - 面对
OpenClaw单次任务价格极贵的问题,AutoClaw提供了免费的模型GLM-4.7-Flash和GLM-4.7-FlashX。另外,也支持接入自己的模型,目前已经支持 GLM、DeepSeek、MiniMax、Kimi 等,之后还会开放更多。
【OpenClaw 应用】腾讯发布龙虾应用 WorkBuddy 和 QClaw
- 今天,腾讯发布了两款龙虾应用
WorkBuddy和QClaw。前者兼容OpenClaw技能,通过简单部署即可接入 QQ、飞书、钉钉的智能体工作平台,目前已经上线;后者能够直接住进微信支持远程对话,预计下周开启公测。 WorkBuddy和核心特色包括:像普通软件一样快速安装部署,上手难度不高;支持无缝接入QQ、飞书、钉钉等工具,处理日常聊天和办公场景;能够进行代码开发、文档总结、数据分析、本地任务执行等多种任务;内置多种模型和多种技能包。QClaw的核心特色包括:和WorkBuddy一样的快速部署;直接在微信中和AI对话并通过远程指令让 AI 执行任务;拥有多个不同技能包;长期记忆用户偏好和上下文信息;直接操作电脑中的文件和各种应用。
3月12日
【大语言模型】英伟达开源新模型 Nemotron 3 Super
- 今天,英伟达重磅发布并开源了新一代模型
Nemotron 3 Super,该模型转为大规模 AI 智能体打造,共有1200亿参数,120亿 激活参数和 1M 上下文,推理增加三倍,吞吐量增加五倍。 Nemotron 3 Super采用新的 Mamba-MoE 混合架构,彻底解决了多智能体协作中的性能瓶颈。它原生采用 NVFP4 精度进行预训练,并使用了全新的 LatentMoE 架构。- 在 Pinbench 基准上,
Nemotron 3 Super稳拿了开源模型第一;在OpenClaw任务成功率上,拿下了 85.6% 的高分,性能直逼Claude Opus 4.6、GPT-5.4,可以说是一款非常适配OpenClaw的模型了。
3月17日
【OpenClaw 应用】阿里发布 ToB 旗舰 AI 应用“悟空”
- 今天,阿里正式发布了一款 ToB 的 AI 旗舰应用“
悟空”,这是钉钉成立十一年来推出的第一款独立 APP,也是阿里面向全球推出的 AI 原生工作平台。在官方展示中,“悟空”可以高效承接串联多平台、多任务,实现“一人搞定一个团队的工作”。 - “
悟空”同步发布了“一人团队”的十大行业解决方案,包括电商、跨境电商、知识类博主、开发、门店、设计、制造、法律、财税、猎头十大核心场景。通过场景化的 Skills 套件,加上预编排的工作流,以及行业数据沉淀,用户只需要一键启动,就可以立即拥有一支精通行业规则的龙虾团队。 - 相较于其他的 OpenClaw 类产品,“
悟空”精准补齐了企业级应用的最大短板,安全。其通过四层安全体系(智能体权限控制、安全沙箱运行、专属模型部署、Skill 安全认证),保证了企业使用时的安全性。
【OpenClaw 应用】英伟达推出龙虾应用 NemoClaw
- 今天,英伟达推出了自己的龙虾应用
NemoClaw。在OpenClaw的基础上,NemoClaw增加了多层安全防护,使得其可以成为企业级的安全解决方案。 NemoClaw比原始的OpenClaw更容易部署,并且运行也更安全。用户只需要使用一条命令即可完成NemoClaw的安装和优化,同时自动部署 OpenShell 进行时,该运行时提供开源模型支持和隔离的沙箱环境,让 AI 智能体在执行任务时能够受到安全、网络和隐私策略的约束。NemoClaw支持多种编程智能体,包括用户本地专用系统上的开源模型,也可以通过隐私路由访问云端的前沿闭源模型。
【OpenClaw 应用】百度发布龙虾全家桶
- 今天,百度同时发布了云端龙虾、安全龙虾、手机龙虾(
红手指 Operator)、桌面龙虾(Dumate)、小度首款家用小龙虾以及一整套的 Skills 能力。所有 Skills 能力中,百度搜索 Skills 能力下载量超过4.5万次,是全球下载量最大的搜索引擎官方 SKill,成为了龙虾必备。 - 百度在 APP 内上线了
OpenClaw能力,对于一大批龙虾预备用户来说,不需要安装就可以一键使用龙虾,甚至连一键部署的过程都省略了。 - 另外,百度推出了桌面龙虾
Dumate,作为员工的第二大脑和执行助理,以个性化理解为核心,融合用户习惯和企业知识,让 AI 走进工作现场,理解意图、主动执行并高效协同。 - 百度将自己的整套 AI 能力封装为了标准化的 Skills,并一口气推出了百度搜索、小度、秒哒、伐谋、客悦营销、百度一见等十余种能力组件。
3月18日
【多模态大模型】GPT-5.4 mini 和 GPT-5.4 nano 发布
- 今天,OpenAI 正式发布了新模型
GPT-5.4 mini和GPT-5.4 nano,它们继承了GPT-5.4的核心优势,支持文本和图像输入、工具调用、函数调用、网络搜索、文件搜索和计算机使用,但是速度拉满,且成本更低。 - 在编程上,
GPT-5.4在用于衡量修复 Github 上真实软件BUG的基准 SWE-Bench Pro 中的成绩是 57.7%,而GPT-5.4 mini拿下了 54.4%;在计算机使用上,GPT-5.4在 OSWorld-Verifiled 的成绩为 75%,而GPT-5.4 mini也拿下了 72.1%;另外,在推理和工具调用任务中,GPT-5.4 mini的成绩也紧逼 GPT-5.4。而且,相较于GPT-5 mini,GPT-5.4 mini的运行速度达到了两倍。 GPT-5.4 mini有 400K 的上下文,输入价格为 0.75美元 / 1M Token,输出价格为 4.5美元 / 1M Token;GPT-5.4 nano 的输入价格为 0.2 美元/ 1M Token,输出价格为 1.25 美元 / 1M Token,相较于GPT-5.4都有了非常明显的下降。- 在 ChatGPT 上,
GPT-5.4 mini已经向免费用户和 Go 用户开放;对于付费用户,当GPT-5.4 Thinking额度耗尽时,GPT-5.4 mini将作为自动的降级备选方案。
【多模态大模型】MiniMax 发布 MiniMax M2.7
- 今天,MiniMax 正式发布了新模型
MiniMax M2.7。该模型的能力升级体现在五个方面,分别是智能体指令遵循与复杂任务执行、多智能体协作与工程级编程、智能体调度、角色扮演与长期记忆,以及办公自动化。 - 对于智能体指令遵循,
MiniMax M2.7能够保证模型在50多个 Skills,60-150 个特征列表的复杂环境中保持稳定的调用与流程执行;多智能体协作与工程级编程实现了原生的智能体协作,而无需对外部编排进行依赖,在日志分析、BUG 定位、代码重构等真实工程场景中表现稳定;智能体调度则进一步加强了工具编排能力,支持智能体群组、多工具检索,配合预制的各种 Skills,构建自迭代的任务执行链路;角色扮演能力方面,覆盖闲聊陪伴、互动小说、沉浸式游戏等场景,支持十多种语言,尤其是通过适配OpenClaw长期记忆框架,智能体角色被赋予了持久身份和真实情感;办公自动化则支持对复杂的 Excel、Word 和 PPT 办公任务的效率提升。
3月19日
【视频生成模型】最强视频生成模型 SkyReels-V4 发布【重要】
- 今天,昆仑万维发布了最新的全球最强的视频生成模型
SkyReels-V4。改模型的 Preview 版本在二月份的 Artificial Analysis 全球视频生成排行榜中成为全球第二,超越了Sora 2以及Veo 3.1;现在,它已经在文生视频榜单中登顶全球第一,超越Sora 2、Veo 3.1、Seedance 2.0等一众国际顶尖模型,成为全球 AI 视频生成能力最强的模型。 SkyReels V4同样支持图生视频,也支持多图参考。据了解,该模型将于3月27日在中关村论坛正式亮相。
【大模型架构】新架构 Mamba-3 发布【重要】
- 今天,Mamba 架构的原版人手正式发布了最新一代的开源架构
Mamba-3。 - 相较于
Mamba-2,Mamba-3对核心的 SSM 进行了三大改动:首先,改进了离散化的过程,使得其可以模拟卷积;其次,将状态转移引入复数领域,来优化状态追踪过程;最后,采用 MIMO 架构以提升推理的利用率,在保持模型解码速度的同时增强模型表现。 - 实验结果证明,仅使用一半的内部状态大小,
Mamba-3的性能就可以和Mamba-2相当;同时,在 1.5B 参数规模下,Mamba-3 MIMO的平均准确率达到了 57.6%,比 Transformers 高出了 4%,在长序列任务上的端到端延迟仅为 Transformer 的七分之一。
【多模态大模型】小米发布 MiMo-V2 系列模型
- 过去一周,在知名大模型基础设施平台 OpenRouter 上霸榜趋势榜第一、周榜第三的神秘模型
Hunter Alpha曝光,是小米的新一代模型MiMo-V2 Pro,这是国内首个万亿参数以及 1M 上下文的模型。 MiMo-V2共有三个版本:MiMo-V2 Pro是面向智能体时代的旗舰基座模型,参数量达到 1021B,激活参数 42B,主攻硬核复杂任务;MiMo-V2-Omni是全模态模型,专为快速推理和低延迟场景打造;MiMo-V2-TTS是首款同时兼备说和唱的超拟人语音大模型。MiMo-V2 Pro在长文本、智能体调用稳定性等方面性能优异。在权威的综合智能排行榜 Artificial Analysis 上,MiMo-V2 Pro位列全国第九,国内第三(次于GLM-5和MiniMax-M2.7),进入了国内第一梯队。而且,这是一款专为龙虾等智能体设计的模型,在 OpenClaw 的标准评测榜单 PinBench 上,该模型位列全球第三,仅次于Claude Sonnet 4.6和Claude Opus 4.6,强过GLM-5和Step 3.5 Flash。MiMo-V2-Omini支持文本、图像、音频、视频(最长一小时)作为输入,在OpenClaw中可以处理网页、摄像头截图、音频分析、文档中的图片等多模态任务。
【OpenClaw 应用】飞书推出龙虾应用 aily
- 今天,飞书在春季发布会上发布了升级的龙虾智能体
aily。该智能体以联系人的形态存在在飞书列表中,不需要进行部署,就可以像同事、助理一样帮用户做很多复杂的工作。不仅如此,飞书还把妙搭智能体和多维表格智能体升级了。
3月22日
【OpenClaw 应用】微信发布龙虾插件 ClawBot
- 今天,微信发布了龙虾插件
ClawBot,用户只需要扫码或复制命令即接入。接入之后,用户就可以通过聊天的方式指挥龙虾进行干活。
3月27日
【音乐大模型】最强音乐生成大模型 Mureka V9 发布【重要】
- 今天,昆仑万维发布了最强的音乐生成大模型
Mureka V9。在上一代模型Mureka V8已经霸榜了 Artificial Analysis 人声和乐器榜单的双料冠军后,该模型进一步提升了控制能力。 Mureka V9对段落级的语义控制更加精准,使得人声从简单的“唱出来”到“唱对了”,混音质感更强,生成速度更快,同一创意下的生成结果也更加新鲜。另外,它还多了一项能力,知道什么情况下不该唱。Mureka V9在主观评分中,在音乐旋律性、音乐表现力、编配编曲三个维度全部拿下第一,超越了Mureka V8、Suno V5和MiniMax M2.5,而在精准控制维度更是大幅上涨,目前仅次于Suno V5。
【世界模型】超强世界模型 Matrix-Game 3.0 发布
- 今天,昆仑万维发布了新一代世界模型
Matrix-Game 3.0。相较于上一代的Matrix-Game 2.0,该模型在三个维度进行了系统升级。 - 在记忆注入方面,
Matrix-Game 3.0在生成当前画面时,不仅会看前几帧,还会根据相机位置检索出更早的几帧,相当于拥有了“记忆力”;在抗漂移机制方面,Matrix-Game 3.0避免了长时序生成中模型会逐渐偏离真实状态的缺点;在蒸馏加速方面,采用多段自回归蒸馏框架,在训练阶段实现了明显的加速。
3月28日
【大语言模型】超强编程模型 GLM-5.1 正式发布
- 今天,智谱突然发布了新一代编程模型
GLM-5.1,该模型的编程能力相较于上一代模型GLM-5有了极大的飙升,已经接近于全球最强编程模型Claude-4.6 Opus。 - 此次的
GLM-5.1率先向 GLM Coding Plan 的所有用户发放(包括 Lite、Pro 和 Max 用户)。
3月30日
【世界模型】最强世界模型 GigaWorld-1 发布【重要】
- 近期,极佳视界在具身智能领域连续发布了多项成果,包括全栈自研的世界排名第一的具身基础大模型
GigaBrain-0.1、依托世界模型实现自我进化的新一代原生范式GigaBrains-0.5M等。今天,它又发布了全球最强的世界模型GigaWorld-1:在世界模型领域的权威评测基准 WorldArena 中,击败谷歌、英伟达、阿里等国际顶尖巨头的模型,断崖式领先成为榜首。 GigaWorld-1在物理遵循、3D 准确度和视觉质量上遥遥领先其他模型。
3月31日
【全模态模型】超强全模态模型 Qwen3.5-Omini 发布
- 今天,阿里正式发布了原生全模态模型
Qwen3.5-Omni。该模型可以无缝理解文本、图片、音频和音视频输入,并且能够生成支持细粒度、带时间戳的音视频脚本。 Qwen3.5-Omni有 Plus、Flash 和 Light 三种尺寸,支持 256K 的上下文以及 113 种可识别语言,可以处理 10 小时音频或 1 小时视频。Qwen3.5-Omni在基准测试集上取得了 215 项 SOTA,整体成绩也和Gemini 3.1 Pro达到同一层次。其中,在通用音频理解、推理、识别、翻译和对话上全面超越了Gemini 3.1 Pro,音视频理解能力和Gemini 3.1 Pro持平,视觉和文本理解能力则与同尺寸的 Qwen3.5 模型持平。Qwen3.5-Omni的一大亮点是自然涌现的 Vibe Coding 能力,可以在实时视频通话中,根据画面逻辑生成 Python 代码或前端原型。并且,该模型支持语义打断。
更多推荐



所有评论(0)