2026年3月人工智能前沿详细总结（包括Gemini 3.1 Flash-Lite、GPT-5.4、SkyReels 4、Mureka V9、GigaWorld-1等）

【代码】2026年3月人工智能前沿详细总结（包括Gemini 3.1 Flash-Lite、GPT-5.4、SkyReels 4、Mureka V9、GigaWorld-1等）

北岛寒沫

819人浏览 · 2026-04-01 10:05:09

北岛寒沫 · 2026-04-01 10:05:09 发布

文章目录

3月4日
- 【多模态大模型】Gemini 3.1 Flash-Lite 发布【重要】
- 【大语言模型】GPT-5.3 Instant 发布
- 【OpenClaw 应用】阿里发布桌面智能体 QoderWork
3月6日
- 【多模态大模型】GPT-5.4 系列模型发布【重要】
3月10日
- 【OpenClaw 应用】智谱发布一分钟装好的龙虾 AutoClaw
- 【OpenClaw 应用】腾讯发布龙虾应用 WorkBuddy 和 QClaw
3月12日
- 【大语言模型】英伟达开源新模型 Nemotron 3 Super
3月17日
- 【OpenClaw 应用】阿里发布 ToB 旗舰 AI 应用“悟空”
- 【OpenClaw 应用】英伟达推出龙虾应用 NemoClaw
- 【OpenClaw 应用】百度发布龙虾全家桶
3月18日
- 【多模态大模型】GPT-5.4 mini 和 GPT-5.4 nano 发布
- 【多模态大模型】MiniMax 发布 MiniMax M2.7
3月19日
- 【视频生成模型】最强视频生成模型 SkyReels-V4 发布【重要】
- 【大模型架构】新架构 Mamba-3 发布【重要】
- 【多模态大模型】小米发布 MiMo-V2 系列模型
- 【OpenClaw 应用】飞书推出龙虾应用 aily
3月22日
- 【OpenClaw 应用】微信发布龙虾插件 ClawBot
3月27日
- 【音乐大模型】最强音乐生成大模型 Mureka V9 发布【重要】
- 【世界模型】超强世界模型 Matrix-Game 3.0 发布
3月28日
- 【大语言模型】超强编程模型 GLM-5.1 正式发布
3月30日
- 【世界模型】最强世界模型 GigaWorld-1 发布【重要】
3月31日
- 【全模态模型】超强全模态模型 Qwen3.5-Omini 发布

3月4日

【多模态大模型】Gemini 3.1 Flash-Lite 发布【重要】

今天，谷歌正式上线了新模型 Gemini 3.1 Flash-Lite。该模型的速度达到了 363 token/s，输出价格为 1.5美元 / 1M token，跑分上更是超越了 GPT-5 mini 和 Claude 4.5 Haiku。
Gemini 3.1 Flash-Lite 的最大特点是速度快，几乎可以做到“瞬时输出”，同时价格很低。同一任务，Gemini 2.5 Flash 的运行时间需要33分钟，而 Gemini 3.1 Flash-Lite 仅用时4分钟，且 token 数量消耗最少，正确率最高。
尽管 Gemini 3.1 Flash-Lite 模型很小，但是其多模态理解能力的基准测试结果仍然十分强悍，只是在代码生成效果方面存在一定的短板。
目前，开发者可以通过 Google AI Studio 的 Gemini API 体验预览版，企业用户可以通过 Vertex AI 接入。

【大语言模型】GPT-5.3 Instant 发布

今天凌晨，OpenAI 发布了最新模型 GPT-5.3 Instant。该模型为 GPT-5.3 的速度优化版本，适合快速的日常查询、草稿写作和即时翻译等任务。
相较于之前的模型，GPT-5.3 减少了模型回复的尴尬感，去掉了机械重复、冗余的免责声明等 AI 腔调，沟通更加自然流畅，同时回答质量更加精准，在联网搜索和写作能力上都得到了增强。
目前，该模型已经在 ChatGPT 中上线，开发者也可以通过 API 进行调用。前一代模型 GPT-5.2 Instant 则会在付费用户的旧版模型区保留三个月，之后退役。

【OpenClaw 应用】阿里发布桌面智能体 QoderWork

今天，阿里发布了首个桌面智能体 QoderWork，杀入 Windows 生态。相较于 OpenClaw，QoderWork 具备了更完美的本地读写和自主执行的核心能力，并且是一款真正成熟、打磨到位的商业化办公桌面智能体。
用户不需要进行繁琐的配置和部署，只需要下载 QoderWork，即可通过简单的对话按需调用本地应用。

3月6日

【多模态大模型】GPT-5.4 系列模型发布【重要】

今天，OpenAI 正式发布了新模型 GPT-5.4，并在该模型中引入了一种被称为“原生的计算机使用”的新模式。
GPT-5.4 在知识工作和网络搜索方面表现出色，具有原生的计算机使用能力。该模型可以直接操作软件，使用工具、浏览网页、执行工作流程，并规划跨应用程序的复杂任务，最多可以处理 1M 上下文 token。
在基准测试中，GPT-5.4 Pro 以 38% 的成绩击败了最难的数学基准测试 FrontierMath Tier，而此前最佳的开源模型成绩为 Kimi K2.5 创造的 4.2%。在视觉感知、代码生成方面也相较于上一代模型有了明显提升。另外，模型还引入了工具搜索功能，并改进了工具调用。
目前，GPT-5.4 已经在 OpenAI 的 API 和 Codex 中提供，并正在 ChatGPT 中逐步推出（面向 ChatGPT Plus、Team 和 Pro 用户开放），取代 GPT-5.2 Thinking 模型。另外，OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro，该版本模型面向 Pro 用户和企业版用户开放，适合解决更复杂的任务。但是在 API 中，GPT-5.4 的调用价格高于 GPT-5.2。

3月10日

【OpenClaw 应用】智谱发布一分钟装好的龙虾 AutoClaw

今天，智谱发布了可以把 OpenClaw 打包为一键安装的桌面应用的 AutoClaw（中文名澳龙），专门用于解决原版 OpenClaw 难以安装的问题。用户只需要下载、双击、登录就可以一分钟安装完成。
AutoClaw 并非 OpenClaw 的阉割版，而是和其具有相同的内核，能力也一个不少。而且，AutoClaw 把龙虾装进了飞书，更好地帮助用户办公。
为了辅助 AutoClaw 更好地进行工作，智谱为其打造了专门的用于智能体场景的模型 Pony-Alpha-2，该模型的前身就是前段时间在 OpenRouter 上表现亮眼的 Poly Alpha。
面对 OpenClaw 单次任务价格极贵的问题，AutoClaw 提供了免费的模型 GLM-4.7-Flash 和 GLM-4.7-FlashX。另外，也支持接入自己的模型，目前已经支持 GLM、DeepSeek、MiniMax、Kimi 等，之后还会开放更多。

【OpenClaw 应用】腾讯发布龙虾应用 WorkBuddy 和 QClaw

今天，腾讯发布了两款龙虾应用 WorkBuddy 和 QClaw。前者兼容 OpenClaw 技能，通过简单部署即可接入 QQ、飞书、钉钉的智能体工作平台，目前已经上线；后者能够直接住进微信支持远程对话，预计下周开启公测。
WorkBuddy 和核心特色包括：像普通软件一样快速安装部署，上手难度不高；支持无缝接入QQ、飞书、钉钉等工具，处理日常聊天和办公场景；能够进行代码开发、文档总结、数据分析、本地任务执行等多种任务；内置多种模型和多种技能包。
QClaw 的核心特色包括：和 WorkBuddy 一样的快速部署；直接在微信中和AI对话并通过远程指令让 AI 执行任务；拥有多个不同技能包；长期记忆用户偏好和上下文信息；直接操作电脑中的文件和各种应用。

3月12日

【大语言模型】英伟达开源新模型 Nemotron 3 Super

今天，英伟达重磅发布并开源了新一代模型 Nemotron 3 Super，该模型转为大规模 AI 智能体打造，共有1200亿参数，120亿激活参数和 1M 上下文，推理增加三倍，吞吐量增加五倍。
Nemotron 3 Super 采用新的 Mamba-MoE 混合架构，彻底解决了多智能体协作中的性能瓶颈。它原生采用 NVFP4 精度进行预训练，并使用了全新的 LatentMoE 架构。
在 Pinbench 基准上，Nemotron 3 Super 稳拿了开源模型第一；在 OpenClaw 任务成功率上，拿下了 85.6% 的高分，性能直逼 Claude Opus 4.6、GPT-5.4，可以说是一款非常适配 OpenClaw 的模型了。

3月17日

【OpenClaw 应用】阿里发布 ToB 旗舰 AI 应用“悟空”

今天，阿里正式发布了一款 ToB 的 AI 旗舰应用“悟空”，这是钉钉成立十一年来推出的第一款独立 APP，也是阿里面向全球推出的 AI 原生工作平台。在官方展示中，“悟空”可以高效承接串联多平台、多任务，实现“一人搞定一个团队的工作”。
“悟空”同步发布了“一人团队”的十大行业解决方案，包括电商、跨境电商、知识类博主、开发、门店、设计、制造、法律、财税、猎头十大核心场景。通过场景化的 Skills 套件，加上预编排的工作流，以及行业数据沉淀，用户只需要一键启动，就可以立即拥有一支精通行业规则的龙虾团队。
相较于其他的 OpenClaw 类产品，“悟空”精准补齐了企业级应用的最大短板，安全。其通过四层安全体系（智能体权限控制、安全沙箱运行、专属模型部署、Skill 安全认证），保证了企业使用时的安全性。

【OpenClaw 应用】英伟达推出龙虾应用 NemoClaw

今天，英伟达推出了自己的龙虾应用 NemoClaw。在 OpenClaw 的基础上，NemoClaw 增加了多层安全防护，使得其可以成为企业级的安全解决方案。
NemoClaw 比原始的 OpenClaw 更容易部署，并且运行也更安全。用户只需要使用一条命令即可完成 NemoClaw 的安装和优化，同时自动部署 OpenShell 进行时，该运行时提供开源模型支持和隔离的沙箱环境，让 AI 智能体在执行任务时能够受到安全、网络和隐私策略的约束。
NemoClaw 支持多种编程智能体，包括用户本地专用系统上的开源模型，也可以通过隐私路由访问云端的前沿闭源模型。

【OpenClaw 应用】百度发布龙虾全家桶

今天，百度同时发布了云端龙虾、安全龙虾、手机龙虾（红手指 Operator）、桌面龙虾（Dumate）、小度首款家用小龙虾以及一整套的 Skills 能力。所有 Skills 能力中，百度搜索 Skills 能力下载量超过4.5万次，是全球下载量最大的搜索引擎官方 SKill，成为了龙虾必备。
百度在 APP 内上线了 OpenClaw 能力，对于一大批龙虾预备用户来说，不需要安装就可以一键使用龙虾，甚至连一键部署的过程都省略了。
另外，百度推出了桌面龙虾 Dumate，作为员工的第二大脑和执行助理，以个性化理解为核心，融合用户习惯和企业知识，让 AI 走进工作现场，理解意图、主动执行并高效协同。
百度将自己的整套 AI 能力封装为了标准化的 Skills，并一口气推出了百度搜索、小度、秒哒、伐谋、客悦营销、百度一见等十余种能力组件。

3月18日

【多模态大模型】GPT-5.4 mini 和 GPT-5.4 nano 发布

今天，OpenAI 正式发布了新模型 GPT-5.4 mini 和 GPT-5.4 nano，它们继承了 GPT-5.4 的核心优势，支持文本和图像输入、工具调用、函数调用、网络搜索、文件搜索和计算机使用，但是速度拉满，且成本更低。
在编程上，GPT-5.4 在用于衡量修复 Github 上真实软件BUG的基准 SWE-Bench Pro 中的成绩是 57.7%，而 GPT-5.4 mini 拿下了 54.4%；在计算机使用上，GPT-5.4 在 OSWorld-Verifiled 的成绩为 75%，而 GPT-5.4 mini 也拿下了 72.1%；另外，在推理和工具调用任务中，GPT-5.4 mini 的成绩也紧逼 GPT-5.4。而且，相较于 GPT-5 mini，GPT-5.4 mini 的运行速度达到了两倍。
GPT-5.4 mini 有 400K 的上下文，输入价格为 0.75美元 / 1M Token，输出价格为 4.5美元 / 1M Token；GPT-5.4 nano 的输入价格为 0.2 美元/ 1M Token，输出价格为 1.25 美元 / 1M Token，相较于 GPT-5.4 都有了非常明显的下降。
在 ChatGPT 上，GPT-5.4 mini 已经向免费用户和 Go 用户开放；对于付费用户，当 GPT-5.4 Thinking 额度耗尽时，GPT-5.4 mini 将作为自动的降级备选方案。

【多模态大模型】MiniMax 发布 MiniMax M2.7

今天，MiniMax 正式发布了新模型 MiniMax M2.7。该模型的能力升级体现在五个方面，分别是智能体指令遵循与复杂任务执行、多智能体协作与工程级编程、智能体调度、角色扮演与长期记忆，以及办公自动化。
对于智能体指令遵循，MiniMax M2.7 能够保证模型在50多个 Skills，60-150 个特征列表的复杂环境中保持稳定的调用与流程执行；多智能体协作与工程级编程实现了原生的智能体协作，而无需对外部编排进行依赖，在日志分析、BUG 定位、代码重构等真实工程场景中表现稳定；智能体调度则进一步加强了工具编排能力，支持智能体群组、多工具检索，配合预制的各种 Skills，构建自迭代的任务执行链路；角色扮演能力方面，覆盖闲聊陪伴、互动小说、沉浸式游戏等场景，支持十多种语言，尤其是通过适配 OpenClaw 长期记忆框架，智能体角色被赋予了持久身份和真实情感；办公自动化则支持对复杂的 Excel、Word 和 PPT 办公任务的效率提升。

3月19日

【视频生成模型】最强视频生成模型 SkyReels-V4 发布【重要】

今天，昆仑万维发布了最新的全球最强的视频生成模型 SkyReels-V4。改模型的 Preview 版本在二月份的 Artificial Analysis 全球视频生成排行榜中成为全球第二，超越了 Sora 2 以及 Veo 3.1；现在，它已经在文生视频榜单中登顶全球第一，超越 Sora 2、Veo 3.1、Seedance 2.0 等一众国际顶尖模型，成为全球 AI 视频生成能力最强的模型。
SkyReels V4 同样支持图生视频，也支持多图参考。据了解，该模型将于3月27日在中关村论坛正式亮相。

【大模型架构】新架构 Mamba-3 发布【重要】

今天，Mamba 架构的原版人手正式发布了最新一代的开源架构 Mamba-3。
相较于 Mamba-2，Mamba-3 对核心的 SSM 进行了三大改动：首先，改进了离散化的过程，使得其可以模拟卷积；其次，将状态转移引入复数领域，来优化状态追踪过程；最后，采用 MIMO 架构以提升推理的利用率，在保持模型解码速度的同时增强模型表现。
实验结果证明，仅使用一半的内部状态大小，Mamba-3 的性能就可以和 Mamba-2 相当；同时，在 1.5B 参数规模下，Mamba-3 MIMO 的平均准确率达到了 57.6%，比 Transformers 高出了 4%，在长序列任务上的端到端延迟仅为 Transformer 的七分之一。

【多模态大模型】小米发布 MiMo-V2 系列模型

过去一周，在知名大模型基础设施平台 OpenRouter 上霸榜趋势榜第一、周榜第三的神秘模型 Hunter Alpha 曝光，是小米的新一代模型 MiMo-V2 Pro，这是国内首个万亿参数以及 1M 上下文的模型。
MiMo-V2 共有三个版本：MiMo-V2 Pro 是面向智能体时代的旗舰基座模型，参数量达到 1021B，激活参数 42B，主攻硬核复杂任务；MiMo-V2-Omni 是全模态模型，专为快速推理和低延迟场景打造；MiMo-V2-TTS 是首款同时兼备说和唱的超拟人语音大模型。
MiMo-V2 Pro 在长文本、智能体调用稳定性等方面性能优异。在权威的综合智能排行榜 Artificial Analysis 上，MiMo-V2 Pro 位列全国第九，国内第三（次于 GLM-5 和 MiniMax-M2.7），进入了国内第一梯队。而且，这是一款专为龙虾等智能体设计的模型，在 OpenClaw 的标准评测榜单 PinBench 上，该模型位列全球第三，仅次于 Claude Sonnet 4.6 和 Claude Opus 4.6，强过 GLM-5 和 Step 3.5 Flash。
MiMo-V2-Omini 支持文本、图像、音频、视频（最长一小时）作为输入，在 OpenClaw 中可以处理网页、摄像头截图、音频分析、文档中的图片等多模态任务。

【OpenClaw 应用】飞书推出龙虾应用 aily

今天，飞书在春季发布会上发布了升级的龙虾智能体 aily。该智能体以联系人的形态存在在飞书列表中，不需要进行部署，就可以像同事、助理一样帮用户做很多复杂的工作。不仅如此，飞书还把妙搭智能体和多维表格智能体升级了。

3月22日

【OpenClaw 应用】微信发布龙虾插件 ClawBot

今天，微信发布了龙虾插件 ClawBot，用户只需要扫码或复制命令即接入。接入之后，用户就可以通过聊天的方式指挥龙虾进行干活。

3月27日

【音乐大模型】最强音乐生成大模型 Mureka V9 发布【重要】

今天，昆仑万维发布了最强的音乐生成大模型 Mureka V9。在上一代模型 Mureka V8 已经霸榜了 Artificial Analysis 人声和乐器榜单的双料冠军后，该模型进一步提升了控制能力。
Mureka V9 对段落级的语义控制更加精准，使得人声从简单的“唱出来”到“唱对了”，混音质感更强，生成速度更快，同一创意下的生成结果也更加新鲜。另外，它还多了一项能力，知道什么情况下不该唱。
Mureka V9 在主观评分中，在音乐旋律性、音乐表现力、编配编曲三个维度全部拿下第一，超越了 Mureka V8、Suno V5 和 MiniMax M2.5，而在精准控制维度更是大幅上涨，目前仅次于 Suno V5。

【世界模型】超强世界模型 Matrix-Game 3.0 发布

今天，昆仑万维发布了新一代世界模型 Matrix-Game 3.0。相较于上一代的 Matrix-Game 2.0，该模型在三个维度进行了系统升级。
在记忆注入方面，Matrix-Game 3.0 在生成当前画面时，不仅会看前几帧，还会根据相机位置检索出更早的几帧，相当于拥有了“记忆力”；在抗漂移机制方面，Matrix-Game 3.0 避免了长时序生成中模型会逐渐偏离真实状态的缺点；在蒸馏加速方面，采用多段自回归蒸馏框架，在训练阶段实现了明显的加速。

3月28日

【大语言模型】超强编程模型 GLM-5.1 正式发布

今天，智谱突然发布了新一代编程模型 GLM-5.1，该模型的编程能力相较于上一代模型 GLM-5 有了极大的飙升，已经接近于全球最强编程模型 Claude-4.6 Opus。
此次的 GLM-5.1 率先向 GLM Coding Plan 的所有用户发放（包括 Lite、Pro 和 Max 用户）。

3月30日

【世界模型】最强世界模型 GigaWorld-1 发布【重要】

近期，极佳视界在具身智能领域连续发布了多项成果，包括全栈自研的世界排名第一的具身基础大模型 GigaBrain-0.1、依托世界模型实现自我进化的新一代原生范式 GigaBrains-0.5M 等。今天，它又发布了全球最强的世界模型 GigaWorld-1：在世界模型领域的权威评测基准 WorldArena 中，击败谷歌、英伟达、阿里等国际顶尖巨头的模型，断崖式领先成为榜首。
GigaWorld-1 在物理遵循、3D 准确度和视觉质量上遥遥领先其他模型。

3月31日

【全模态模型】超强全模态模型 Qwen3.5-Omini 发布

今天，阿里正式发布了原生全模态模型 Qwen3.5-Omni。该模型可以无缝理解文本、图片、音频和音视频输入，并且能够生成支持细粒度、带时间戳的音视频脚本。
Qwen3.5-Omni 有 Plus、Flash 和 Light 三种尺寸，支持 256K 的上下文以及 113 种可识别语言，可以处理 10 小时音频或 1 小时视频。
Qwen3.5-Omni 在基准测试集上取得了 215 项 SOTA，整体成绩也和 Gemini 3.1 Pro 达到同一层次。其中，在通用音频理解、推理、识别、翻译和对话上全面超越了 Gemini 3.1 Pro，音视频理解能力和 Gemini 3.1 Pro 持平，视觉和文本理解能力则与同尺寸的 Qwen3.5 模型持平。
Qwen3.5-Omni 的一大亮点是自然涌现的 Vibe Coding 能力，可以在实时视频通话中，根据画面逻辑生成 Python 代码或前端原型。并且，该模型支持语义打断。