3月4日

【多模态大模型】Gemini 3.1 Flash-Lite 发布【重要】

  • 今天,谷歌正式上线了新模型 Gemini 3.1 Flash-Lite。该模型的速度达到了 363 token/s,输出价格为 1.5美元 / 1M token,跑分上更是超越了 GPT-5 mini 和 Claude 4.5 Haiku。
  • Gemini 3.1 Flash-Lite 的最大特点是速度快,几乎可以做到“瞬时输出”,同时价格很低。同一任务,Gemini 2.5 Flash 的运行时间需要33分钟,而 Gemini 3.1 Flash-Lite 仅用时4分钟,且 token 数量消耗最少,正确率最高。
  • 尽管 Gemini 3.1 Flash-Lite 模型很小,但是其多模态理解能力的基准测试结果仍然十分强悍,只是在代码生成效果方面存在一定的短板。
  • 目前,开发者可以通过 Google AI Studio 的 Gemini API 体验预览版,企业用户可以通过 Vertex AI 接入。

【大语言模型】GPT-5.3 Instant 发布

  • 今天凌晨,OpenAI 发布了最新模型 GPT-5.3 Instant。该模型为 GPT-5.3 的速度优化版本,适合快速的日常查询、草稿写作和即时翻译等任务。
  • 相较于之前的模型,GPT-5.3 减少了模型回复的尴尬感,去掉了机械重复、冗余的免责声明等 AI 腔调,沟通更加自然流畅,同时回答质量更加精准,在联网搜索和写作能力上都得到了增强。
  • 目前,该模型已经在 ChatGPT 中上线,开发者也可以通过 API 进行调用。前一代模型 GPT-5.2 Instant 则会在付费用户的旧版模型区保留三个月,之后退役。

【OpenClaw 应用】阿里发布桌面智能体 QoderWork

  • 今天,阿里发布了首个桌面智能体 QoderWork,杀入 Windows 生态。相较于 OpenClawQoderWork 具备了更完美的本地读写和自主执行的核心能力,并且是一款真正成熟、打磨到位的商业化办公桌面智能体。
  • 用户不需要进行繁琐的配置和部署,只需要下载 QoderWork,即可通过简单的对话按需调用本地应用。

3月6日

【多模态大模型】GPT-5.4 系列模型发布【重要】

  • 今天,OpenAI 正式发布了新模型 GPT-5.4,并在该模型中引入了一种被称为“原生的计算机使用”的新模式。
  • GPT-5.4 在知识工作和网络搜索方面表现出色,具有原生的计算机使用能力。该模型可以直接操作软件,使用工具、浏览网页、执行工作流程,并规划跨应用程序的复杂任务,最多可以处理 1M 上下文 token。
  • 在基准测试中,GPT-5.4 Pro 以 38% 的成绩击败了最难的数学基准测试 FrontierMath Tier,而此前最佳的开源模型成绩为 Kimi K2.5 创造的 4.2%。在视觉感知、代码生成方面也相较于上一代模型有了明显提升。另外,模型还引入了工具搜索功能,并改进了工具调用。
  • 目前,GPT-5.4 已经在 OpenAI 的 API 和 Codex 中提供,并正在 ChatGPT 中逐步推出(面向 ChatGPT Plus、Team 和 Pro 用户开放),取代 GPT-5.2 Thinking 模型。另外,OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro,该版本模型面向 Pro 用户和企业版用户开放,适合解决更复杂的任务。但是在 API 中,GPT-5.4 的调用价格高于 GPT-5.2

3月10日

【OpenClaw 应用】智谱发布一分钟装好的龙虾 AutoClaw

  • 今天,智谱发布了可以把 OpenClaw 打包为一键安装的桌面应用的 AutoClaw(中文名澳龙),专门用于解决原版 OpenClaw 难以安装的问题。用户只需要下载、双击、登录就可以一分钟安装完成。
  • AutoClaw 并非 OpenClaw 的阉割版,而是和其具有相同的内核,能力也一个不少。而且,AutoClaw 把龙虾装进了飞书,更好地帮助用户办公。
  • 为了辅助 AutoClaw 更好地进行工作,智谱为其打造了专门的用于智能体场景的模型 Pony-Alpha-2,该模型的前身就是前段时间在 OpenRouter 上表现亮眼的 Poly Alpha
  • 面对 OpenClaw 单次任务价格极贵的问题,AutoClaw 提供了免费的模型 GLM-4.7-FlashGLM-4.7-FlashX。另外,也支持接入自己的模型,目前已经支持 GLM、DeepSeek、MiniMax、Kimi 等,之后还会开放更多。

【OpenClaw 应用】腾讯发布龙虾应用 WorkBuddy 和 QClaw

  • 今天,腾讯发布了两款龙虾应用 WorkBuddyQClaw。前者兼容 OpenClaw 技能,通过简单部署即可接入 QQ、飞书、钉钉的智能体工作平台,目前已经上线;后者能够直接住进微信支持远程对话,预计下周开启公测。
  • WorkBuddy 和核心特色包括:像普通软件一样快速安装部署,上手难度不高;支持无缝接入QQ、飞书、钉钉等工具,处理日常聊天和办公场景;能够进行代码开发、文档总结、数据分析、本地任务执行等多种任务;内置多种模型和多种技能包。
  • QClaw 的核心特色包括:和 WorkBuddy 一样的快速部署;直接在微信中和AI对话并通过远程指令让 AI 执行任务;拥有多个不同技能包;长期记忆用户偏好和上下文信息;直接操作电脑中的文件和各种应用。

3月12日

【大语言模型】英伟达开源新模型 Nemotron 3 Super

  • 今天,英伟达重磅发布并开源了新一代模型 Nemotron 3 Super,该模型转为大规模 AI 智能体打造,共有1200亿参数,120亿 激活参数和 1M 上下文,推理增加三倍,吞吐量增加五倍。
  • Nemotron 3 Super 采用新的 Mamba-MoE 混合架构,彻底解决了多智能体协作中的性能瓶颈。它原生采用 NVFP4 精度进行预训练,并使用了全新的 LatentMoE 架构。
  • 在 Pinbench 基准上,Nemotron 3 Super 稳拿了开源模型第一;在 OpenClaw 任务成功率上,拿下了 85.6% 的高分,性能直逼 Claude Opus 4.6GPT-5.4,可以说是一款非常适配 OpenClaw 的模型了。

3月17日

【OpenClaw 应用】阿里发布 ToB 旗舰 AI 应用“悟空”

  • 今天,阿里正式发布了一款 ToB 的 AI 旗舰应用“悟空”,这是钉钉成立十一年来推出的第一款独立 APP,也是阿里面向全球推出的 AI 原生工作平台。在官方展示中,“悟空”可以高效承接串联多平台、多任务,实现“一人搞定一个团队的工作”。
  • 悟空”同步发布了“一人团队”的十大行业解决方案,包括电商、跨境电商、知识类博主、开发、门店、设计、制造、法律、财税、猎头十大核心场景。通过场景化的 Skills 套件,加上预编排的工作流,以及行业数据沉淀,用户只需要一键启动,就可以立即拥有一支精通行业规则的龙虾团队。
  • 相较于其他的 OpenClaw 类产品,“悟空”精准补齐了企业级应用的最大短板,安全。其通过四层安全体系(智能体权限控制、安全沙箱运行、专属模型部署、Skill 安全认证),保证了企业使用时的安全性。

【OpenClaw 应用】英伟达推出龙虾应用 NemoClaw

  • 今天,英伟达推出了自己的龙虾应用 NemoClaw。在 OpenClaw 的基础上,NemoClaw 增加了多层安全防护,使得其可以成为企业级的安全解决方案。
  • NemoClaw 比原始的 OpenClaw 更容易部署,并且运行也更安全。用户只需要使用一条命令即可完成 NemoClaw 的安装和优化,同时自动部署 OpenShell 进行时,该运行时提供开源模型支持和隔离的沙箱环境,让 AI 智能体在执行任务时能够受到安全、网络和隐私策略的约束。
  • NemoClaw 支持多种编程智能体,包括用户本地专用系统上的开源模型,也可以通过隐私路由访问云端的前沿闭源模型。

【OpenClaw 应用】百度发布龙虾全家桶

  • 今天,百度同时发布了云端龙虾、安全龙虾、手机龙虾(红手指 Operator)、桌面龙虾(Dumate)、小度首款家用小龙虾以及一整套的 Skills 能力。所有 Skills 能力中,百度搜索 Skills 能力下载量超过4.5万次,是全球下载量最大的搜索引擎官方 SKill,成为了龙虾必备。
  • 百度在 APP 内上线了 OpenClaw 能力,对于一大批龙虾预备用户来说,不需要安装就可以一键使用龙虾,甚至连一键部署的过程都省略了。
  • 另外,百度推出了桌面龙虾 Dumate,作为员工的第二大脑和执行助理,以个性化理解为核心,融合用户习惯和企业知识,让 AI 走进工作现场,理解意图、主动执行并高效协同。
  • 百度将自己的整套 AI 能力封装为了标准化的 Skills,并一口气推出了百度搜索、小度、秒哒、伐谋、客悦营销、百度一见等十余种能力组件。

3月18日

【多模态大模型】GPT-5.4 mini 和 GPT-5.4 nano 发布

  • 今天,OpenAI 正式发布了新模型 GPT-5.4 miniGPT-5.4 nano,它们继承了 GPT-5.4 的核心优势,支持文本和图像输入、工具调用、函数调用、网络搜索、文件搜索和计算机使用,但是速度拉满,且成本更低。
  • 在编程上,GPT-5.4 在用于衡量修复 Github 上真实软件BUG的基准 SWE-Bench Pro 中的成绩是 57.7%,而 GPT-5.4 mini 拿下了 54.4%;在计算机使用上,GPT-5.4 在 OSWorld-Verifiled 的成绩为 75%,而 GPT-5.4 mini 也拿下了 72.1%;另外,在推理和工具调用任务中,GPT-5.4 mini 的成绩也紧逼 GPT-5.4。而且,相较于 GPT-5 miniGPT-5.4 mini 的运行速度达到了两倍。
  • GPT-5.4 mini 有 400K 的上下文,输入价格为 0.75美元 / 1M Token,输出价格为 4.5美元 / 1M Token;GPT-5.4 nano 的输入价格为 0.2 美元/ 1M Token,输出价格为 1.25 美元 / 1M Token,相较于 GPT-5.4 都有了非常明显的下降。
  • 在 ChatGPT 上,GPT-5.4 mini 已经向免费用户和 Go 用户开放;对于付费用户,当 GPT-5.4 Thinking 额度耗尽时,GPT-5.4 mini 将作为自动的降级备选方案。

【多模态大模型】MiniMax 发布 MiniMax M2.7

  • 今天,MiniMax 正式发布了新模型 MiniMax M2.7。该模型的能力升级体现在五个方面,分别是智能体指令遵循与复杂任务执行、多智能体协作与工程级编程、智能体调度、角色扮演与长期记忆,以及办公自动化。
  • 对于智能体指令遵循,MiniMax M2.7 能够保证模型在50多个 Skills,60-150 个特征列表的复杂环境中保持稳定的调用与流程执行;多智能体协作与工程级编程实现了原生的智能体协作,而无需对外部编排进行依赖,在日志分析、BUG 定位、代码重构等真实工程场景中表现稳定;智能体调度则进一步加强了工具编排能力,支持智能体群组、多工具检索,配合预制的各种 Skills,构建自迭代的任务执行链路;角色扮演能力方面,覆盖闲聊陪伴、互动小说、沉浸式游戏等场景,支持十多种语言,尤其是通过适配 OpenClaw 长期记忆框架,智能体角色被赋予了持久身份和真实情感;办公自动化则支持对复杂的 Excel、Word 和 PPT 办公任务的效率提升。

3月19日

【视频生成模型】最强视频生成模型 SkyReels-V4 发布【重要】

  • 今天,昆仑万维发布了最新的全球最强的视频生成模型 SkyReels-V4。改模型的 Preview 版本在二月份的 Artificial Analysis 全球视频生成排行榜中成为全球第二,超越了 Sora 2 以及 Veo 3.1;现在,它已经在文生视频榜单中登顶全球第一,超越 Sora 2Veo 3.1Seedance 2.0 等一众国际顶尖模型,成为全球 AI 视频生成能力最强的模型。
  • SkyReels V4 同样支持图生视频,也支持多图参考。据了解,该模型将于3月27日在中关村论坛正式亮相。

【大模型架构】新架构 Mamba-3 发布【重要】

  • 今天,Mamba 架构的原版人手正式发布了最新一代的开源架构 Mamba-3
  • 相较于 Mamba-2Mamba-3 对核心的 SSM 进行了三大改动:首先,改进了离散化的过程,使得其可以模拟卷积;其次,将状态转移引入复数领域,来优化状态追踪过程;最后,采用 MIMO 架构以提升推理的利用率,在保持模型解码速度的同时增强模型表现。
  • 实验结果证明,仅使用一半的内部状态大小,Mamba-3 的性能就可以和 Mamba-2 相当;同时,在 1.5B 参数规模下,Mamba-3 MIMO 的平均准确率达到了 57.6%,比 Transformers 高出了 4%,在长序列任务上的端到端延迟仅为 Transformer 的七分之一。

【多模态大模型】小米发布 MiMo-V2 系列模型

  • 过去一周,在知名大模型基础设施平台 OpenRouter 上霸榜趋势榜第一、周榜第三的神秘模型 Hunter Alpha 曝光,是小米的新一代模型 MiMo-V2 Pro,这是国内首个万亿参数以及 1M 上下文的模型。
  • MiMo-V2 共有三个版本:MiMo-V2 Pro 是面向智能体时代的旗舰基座模型,参数量达到 1021B,激活参数 42B,主攻硬核复杂任务;MiMo-V2-Omni 是全模态模型,专为快速推理和低延迟场景打造;MiMo-V2-TTS 是首款同时兼备说和唱的超拟人语音大模型。
  • MiMo-V2 Pro 在长文本、智能体调用稳定性等方面性能优异。在权威的综合智能排行榜 Artificial Analysis 上,MiMo-V2 Pro 位列全国第九,国内第三(次于 GLM-5MiniMax-M2.7),进入了国内第一梯队。而且,这是一款专为龙虾等智能体设计的模型,在 OpenClaw 的标准评测榜单 PinBench 上,该模型位列全球第三,仅次于 Claude Sonnet 4.6Claude Opus 4.6,强过 GLM-5Step 3.5 Flash
  • MiMo-V2-Omini 支持文本、图像、音频、视频(最长一小时)作为输入,在 OpenClaw 中可以处理网页、摄像头截图、音频分析、文档中的图片等多模态任务。

【OpenClaw 应用】飞书推出龙虾应用 aily

  • 今天,飞书在春季发布会上发布了升级的龙虾智能体 aily。该智能体以联系人的形态存在在飞书列表中,不需要进行部署,就可以像同事、助理一样帮用户做很多复杂的工作。不仅如此,飞书还把妙搭智能体和多维表格智能体升级了。

3月22日

【OpenClaw 应用】微信发布龙虾插件 ClawBot

  • 今天,微信发布了龙虾插件 ClawBot,用户只需要扫码或复制命令即接入。接入之后,用户就可以通过聊天的方式指挥龙虾进行干活。

3月27日

【音乐大模型】最强音乐生成大模型 Mureka V9 发布【重要】

  • 今天,昆仑万维发布了最强的音乐生成大模型 Mureka V9。在上一代模型 Mureka V8 已经霸榜了 Artificial Analysis 人声和乐器榜单的双料冠军后,该模型进一步提升了控制能力。
  • Mureka V9 对段落级的语义控制更加精准,使得人声从简单的“唱出来”到“唱对了”,混音质感更强,生成速度更快,同一创意下的生成结果也更加新鲜。另外,它还多了一项能力,知道什么情况下不该唱。
  • Mureka V9 在主观评分中,在音乐旋律性、音乐表现力、编配编曲三个维度全部拿下第一,超越了 Mureka V8Suno V5MiniMax M2.5,而在精准控制维度更是大幅上涨,目前仅次于 Suno V5

【世界模型】超强世界模型 Matrix-Game 3.0 发布

  • 今天,昆仑万维发布了新一代世界模型 Matrix-Game 3.0。相较于上一代的 Matrix-Game 2.0,该模型在三个维度进行了系统升级。
  • 在记忆注入方面,Matrix-Game 3.0 在生成当前画面时,不仅会看前几帧,还会根据相机位置检索出更早的几帧,相当于拥有了“记忆力”;在抗漂移机制方面,Matrix-Game 3.0 避免了长时序生成中模型会逐渐偏离真实状态的缺点;在蒸馏加速方面,采用多段自回归蒸馏框架,在训练阶段实现了明显的加速。

3月28日

【大语言模型】超强编程模型 GLM-5.1 正式发布

  • 今天,智谱突然发布了新一代编程模型 GLM-5.1,该模型的编程能力相较于上一代模型 GLM-5 有了极大的飙升,已经接近于全球最强编程模型 Claude-4.6 Opus
  • 此次的 GLM-5.1 率先向 GLM Coding Plan 的所有用户发放(包括 Lite、Pro 和 Max 用户)。

3月30日

【世界模型】最强世界模型 GigaWorld-1 发布【重要】

  • 近期,极佳视界在具身智能领域连续发布了多项成果,包括全栈自研的世界排名第一的具身基础大模型 GigaBrain-0.1、依托世界模型实现自我进化的新一代原生范式 GigaBrains-0.5M 等。今天,它又发布了全球最强的世界模型 GigaWorld-1:在世界模型领域的权威评测基准 WorldArena 中,击败谷歌、英伟达、阿里等国际顶尖巨头的模型,断崖式领先成为榜首。
  • GigaWorld-1 在物理遵循、3D 准确度和视觉质量上遥遥领先其他模型。

3月31日

【全模态模型】超强全模态模型 Qwen3.5-Omini 发布

  • 今天,阿里正式发布了原生全模态模型 Qwen3.5-Omni。该模型可以无缝理解文本、图片、音频和音视频输入,并且能够生成支持细粒度、带时间戳的音视频脚本。
  • Qwen3.5-Omni 有 Plus、Flash 和 Light 三种尺寸,支持 256K 的上下文以及 113 种可识别语言,可以处理 10 小时音频或 1 小时视频。
  • Qwen3.5-Omni 在基准测试集上取得了 215 项 SOTA,整体成绩也和 Gemini 3.1 Pro 达到同一层次。其中,在通用音频理解、推理、识别、翻译和对话上全面超越了 Gemini 3.1 Pro,音视频理解能力和 Gemini 3.1 Pro 持平,视觉和文本理解能力则与同尺寸的 Qwen3.5 模型持平。
  • Qwen3.5-Omni 的一大亮点是自然涌现的 Vibe Coding 能力,可以在实时视频通话中,根据画面逻辑生成 Python 代码或前端原型。并且,该模型支持语义打断。
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐