【AIGC行业前沿】2026年5月AIGC行业前沿模型发布动态(5月18-5月24)
2026年最新AI模型与产品动态汇总(20条完整版)
目录
1. Cursor 发布 Composer 2.5 编程模型,携手SpaceXAI合训超大新模型
2. 字节跳动开源3B参数原生统一多模态模型Lance
3. Odyssey推出Starchild-1实时音视频模型与Agora-1多智能体交互模型
4. Sapient Intelligence开源HRM-Text-1B双时间尺度层级推理轻量化模型
5. NVIDIA开源Nemotron-Labs-Diffusion三模式解码系列生成模型
6. Skywork发布SkyClaw-v1.0及轻量版专属Agent模型
7. 阿里千问发布Agent时代旗舰模型Qwen3.7-Max(即将上线百炼API)
8. 千问上线Qwen3.5-LiveTranslate-Flash实时多语种同传模型
9. Cohere开源218B MoE架构高性能Agent模型Command A+
10. Stability AI发布Stable Audio 3.0长时长专业音频生成模型系列
11. NVIDIA开源SANA-WM分钟级720P可控高清视频生成世界模型
12. SpaceXAI上线Grok Build 0.1编程专用Agent模型(Beta测试)
13. 腾讯混元开源Hy-MT2多语言方言翻译模型家族,上线专属小程序
14. 网易有道开源Confucius4多模态数学推理SOTA模型
15. 美团开源LongCat-Video-Avatar-1.5音频驱动数字人生成框架
16. Runway推出Aleph 2.0视频编辑模型与Edit Studio创作工具
17. 智谱发布GLM-5.1-HighSpeed高速推理旗舰模型(400 tokens/s)
18. 千问Qwen3.7-Max全端免费开放,阿里云百炼限时五折优惠
19. OpenBMB联合高校与企业开源昇腾910B原生训练BitCPM-CANN量化模型
20. 网易有道推出Confucius4-TTS多语种零样本语音克隆引擎
详细动态内容(全量信息保留+降重优化)
1. Cursor 发布 Composer 2.5 编程模型,携手SpaceXAI合训超大新模型
Cursor 正式推出全新编程模型 Composer 2.5,该模型基于月之暗面 Kimi K2.5 模型迭代优化而成,重点升级复杂指令适配能力与长时任务稳定运行能力。官方实测数据显示,其综合运行效率相较同级别主流模型最高提升十倍,大幅优化编程作业效率。
本次上线的模型分为标准版与高速版,默认启用速度更快的高速版本,上线首周面向全量用户开放双倍使用额度福利。技术训练层面,模型引入文本反馈强化学习机制,有效解决长时序复杂编程任务中的信用分配难题,显著提升长流程任务的完成质量与稳定性。
同时,Cursor 官宣与 SpaceXAI 达成深度合作,将调用十倍常规计算资源,在百万 H100 等效算力的 Colossus 2 集群中从零训练一款全新超大模型,有望实现模型综合能力的跨越式升级。
官方链接:https://cursor.com/blog/composer-2-5、https://cursor.com/docs/models/cursor-composer-2-5
2. 字节跳动开源3B参数原生统一多模态模型Lance
字节跳动智能创作团队自研的3B参数原生统一多模态模型 Lance 正式开源,模型代码与训练权重同步上架 GitHub、HuggingFace 开源平台。该模型采用创新双流混合专家架构,依托128块A100 GPU从零完成全量训练,是一款集成化全能多模态基础模型。
Lance 无需多模型拼接,可在单一框架内完成文生图、文生视频、多模态内容理解、图像与视频编辑等六类核心创作任务,适配各类多模态生成与处理场景。在VBench等主流视频生成权威基准测试中,Lance 综合评分表现优异,整体性能超越多款市面主流开源统一多模态模型。
官方链接:https://lance-project.github.io/、https://github.com/bytedance/Lance、https://huggingface.co/bytedance-research/Lance
3. Odyssey推出Starchild-1实时音视频模型与Agora-1多智能体交互模型
Odyssey 同步发布两大 AI 模型预览版本,分别为实时多模态世界模型 Starchild-1 预览版、多智能体交互模型 Agora-1 研究预览版。其中 Starchild-1 是业界首款支持实时运行的多模态世界模型,可通过自回归方式同步生成音频、视频内容,且能实时响应用户交互指令,动态调整生成效果。
Agora-1 采用模拟与渲染解耦的核心架构,打破传统交互限制,支持多名人类用户、多个AI智能体在同一虚拟场景中实时联动交互。目前,基于该模型开发的 GoldenEye 多人对战演示已开放在线体验。官方同时官宣迭代升级版本 Agora-2 已进入研发阶段,即将发布。
官方链接:https://odyssey.ml/introducing-agora-1、https://agora.odyssey.ml/、https://odyssey.ml/introducing-starchild-1
4. Sapient Intelligence开源HRM-Text-1B双时间尺度层级推理轻量化模型
Sapient Intelligence 正式开源10亿参数轻量化语言模型 HRM-Text-1B,配套完整预训练框架与模型权重同步公开至 Hugging Face 和 GitHub 平台。模型搭载自研双时间尺度层级循环推理架构,通过快慢双Transformer模块迭代运算,在轻量化参数规模下实现了极具竞争力的推理性能。
依托精准结构化数据集筛选与架构精简优化,该模型仅需400亿token即可完成全量预训练,训练成本极低。实测数据显示,使用16块H100 GPU完成全程训练仅需46小时,整体训练成本控制在1000-1400美元区间。
当前发布版本为预对齐基础检查点,未经过指令微调与多轮对话优化,仅支持英文交互,训练数据未包含代码内容,暂无代码生成能力。
官方链接:https://huggingface.co/sapientinc/HRM-Text-1B、https://github.com/sapientinc/HRM-Text
5. NVIDIA开源Nemotron-Labs-Diffusion三模式解码系列生成模型
NVIDIA 全新开源 Nemotron-Labs-Diffusion 模型系列,覆盖3B、8B、14B三种参数规格的Base基础版与Instruct指令版,同时配套推出9B参数VLM-8B视觉语言模型,全面适配文本、视觉多场景生成需求。
该系列模型核心亮点为**三模式无缝切换解码**,用户可在推理阶段自由切换传统自回归解码、并行扩散解码、自推测解码三种模式,适配不同生成精度与速度需求。性能测试中,其自推测模式的上下文接收长度相较采用MTP方案的Qwen3-8B-Eagle3提升3倍;在GB200平台部署8B模型,搭配定制CUDA内核,推理速度可达1015 tok/sec。
模型默认采用BF16精度运行,需适配transformers>=5.0.0版本环境,各版本均基于NVIDIA专属许可协议在Hugging Face开放下载。
官方链接:https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B、https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-VLM-8B
6. Skywork发布SkyClaw-v1.0及轻量版专属Agent模型
Skywork 面向AI智能体落地场景,正式推出专属模型 SkyClaw-v1.0 及轻量化变体 SkyClaw-v1.0-lite,轻量版主打低延迟、低成本部署优势,适配轻量化Agent终端场景。
两款模型均基于真实用户交互数据优化,在PinchBench、Claw-Eval两大专属Agent基准测试中,综合性能全面优于Minimax 2.7、DeepSeek V4 Flash、千问系列主流模型。模型原生兼容MCP协议,内置强大的多步任务规划、函数调用能力,支持流式输出等多种推理交互模式,完美适配各类自动化Agent工作流。
目前,用户可通过APIFree平台免费获取API Key,无成本调用该模型全部能力。
官方链接:https://www.apifree.ai/、https://x.com/Skywork_ai/status/2056712235909890368
7. 阿里千问发布Agent时代旗舰模型Qwen3.7-Max(即将上线百炼API)
阿里千问正式推出新一代全能旗舰模型 Qwen3.7-Max,定位为Agent时代核心基座模型,主打高强度代码生成、办公自动化、长周期自主任务执行三大核心能力。模型采用任务、运行框架、验证器正交解耦的创新训练架构,大幅提升复杂自主任务的稳定性。
该模型原生适配Claude Code、OpenClaw、Qwen Code等主流智能体框架,支持MCP协议集成与多智能体协同作业,还可通过工具调用操控机器狗等具身智能设备,拓展实体交互能力。在极限实测场景中,模型完成35小时超长时长、1158次连续工具调用的内核优化实验,实现基准版本10倍的几何平均加速。
模型在编程Agent、通用Agent、高难度推理等核心评测维度表现行业领先,商用API即将通过阿里云百炼平台正式上线。
官方链接:https://qwenlm.github.io/zh/blog/qwen3.7/
8. 千问上线Qwen3.5-LiveTranslate-Flash实时多语种同传模型
阿里通义实验室基于Qwen3.5-Omni Thinker-Talker架构,打造并发布实时语音同传大模型 Qwen3.5-LiveTranslate-Flash,全面升级多语种实时翻译与交互能力。模型支持60种语言音频输入、29种语言语音输出,覆盖全球主流语种,新增实时跨语言音色克隆核心功能。
性能层面,模型将端到端单字平均延迟压缩至2.8秒,适配实时同传场景;支持最高1000条词条的动态热词自定义配置,可满足专业领域定制化翻译需求。在FLEURS公开基准测试中,其翻译准确率优于前代模型及市面主流语音翻译大模型。
目前官方博客与在线Demo已对外开放体验,阿里云百炼平台的商业化集成服务即将正式上线。
官方链接:https://qwen.ai/blog?id=qwen3.5-livetranslate、https://omni.qwen.ai/live-translate、https://mp.weixin.qq.com/s/N6mr3RPIzbLuU5lTgy4P-w
9. Cohere开源218B MoE架构高性能Agent模型Command A+
Cohere 基于Apache 2.0开源协议,发布旗舰级Agent大模型 Command A+。模型采用218B总参数、25B激活参数的稀疏MoE混合专家架构,整合前代系列模型的视觉理解、逻辑推理能力,专为企业级Agent任务与高性能落地场景深度优化。
模型支持128K超长上下文窗口、64K超长内容输出,兼容图像输入与48种语言互译,适配多模态、多语种复杂办公与智能体场景。官方提供BF16、FP8、W4A4三种量化版本,适配不同硬件部署需求,其中轻量化W4A4版本仅需单块B200显卡或两块H100显卡即可运行。同时通过新增推测解码机制与全新分词器,大幅提升推理效率。
目前模型权重已正式上架Hugging Face平台。
官方链接:https://cohere.com/blog/command-a-plus、https://huggingface.co/CohereLabs/command-a-plus-05-2026
10. Stability AI发布Stable Audio 3.0长时长专业音频生成模型系列
Stability AI 推出全新 Stable Audio 3.0 音频生成模型系列,搭载自研语义-声学自编码器架构,支持可变时长音频生成与精细化编辑,最长可生成6分钟高清无损音频,适配音乐创作、音效制作等专业场景。
该系列包含四款不同规格模型,适配差异化部署需求:small SFX、small、medium三款轻量模型开放完整权重,年收入低于100万美元的个人及企业,可依据社区许可证免费商用;large高端模型暂不开放权重,仅支持官方API调用与付费自托管部署。
用户可完全拥有生成音频内容的版权,同时品牌已开启专业音乐家定制产品套件的候补预约通道。
官方链接:https://stability.ai/stable-audio、https://huggingface.co/collections/stabilityai/stable-audio-3
11. NVIDIA开源SANA-WM分钟级720P可控高清视频生成世界模型
NVIDIA 开源26亿参数世界模型 SANA-WM,主打分钟级高清可控视频生成,是专为长时长视频生成原生训练的高效模型。该模型支持以单张RGB图像、文本提示词、6自由度精准摄像机轨迹为输入,稳定生成720p分辨率、60秒时长的高保真连贯视频。
模型搭载四大核心创新架构:混合线性注意力机制、双分支相机控制、两阶段生成管道、规模化精准标注管线,有效保障视频时空一致性与画面细节质量,搭配LTX-2双向精炼器实现高清解码。部署门槛极低,单张H100 GPU即可完成60秒视频完整推理;经过蒸馏与NVFP4量化优化的变体模型,在单张RTX 5090显卡上仅需34秒即可完成视频去噪生成。
目前模型双向检查点、全套推理代码及配套组件已开源,基于Apache 2.0协议开放商用与二次开发。
官方链接:https://nvlabs.github.io/Sana/WM/、https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional
12. SpaceXAI上线Grok Build 0.1编程专用Agent模型(Beta测试)
SpaceXAI 上线专为智能体软件工程工作流定制的 Grok Build 0.1 模型,目前处于早期Beta测试与限量访问阶段,主打自动化编程场景落地。模型配备256K超长上下文窗口,原生支持函数调用、自主逻辑推理等核心Agent能力,适配复杂代码开发、迭代、调试全流程。
该模型推理算力固定不可自定义,仅支持推理模式运行,官方API定价清晰透明:输入Token单价为1美元/百万,输出Token单价为2美元/百万。除官方API服务外,模型已完成Grok Build CLI、Vercel AI Gateway、Nous Research Hermes Agent等多平台集成,为开发者提供多渠道调用方式。
官方链接:https://docs.x.ai/developers/models/grok-build-0.1
13. 腾讯混元开源Hy-MT2多语言方言翻译模型家族,上线专属小程序
腾讯混元正式开源全新多语言翻译模型家族 Hy-MT2,包含1.8B、7B、30B-A3B三种参数规格,全系列原生支持33种语言互译与5种中国方言翻译,重点优化专业领域翻译、翻译指令遵循能力。官方同步上线「腾讯Hy翻译」小程序,支持离线端侧推理,iOS、安卓独立APP正在上架筹备中。
性能表现行业领先,7B、30B-A3B模型在通用翻译、专业领域、真实业务场景评测中达到开源最优水平,多项指标超越DeepSeek-V4-Pro、Gemini 3.1 Pro等头部闭源模型;1.8B轻量化模型性能全面优于微软、豆包等主流商业翻译API。
技术层面,自研1.25-bit极端量化技术让1.8B模型仅占用440MB存储空间,可适配各类手机芯片端侧部署,推理速度较上代提升1.5倍。本次同步开源IFMTBench翻译指令遵循测试集,助力行业技术迭代。
官方链接:https://aistudio.tencent.com/llm/zh?tabIndex=0、https://mp.weixin.qq.com/s/a_GPa-brAIB5aqXyd8W4-Q、https://huggingface.co/collections/tencent/hy-mt2
14. 网易有道开源Confucius4多模态数学推理SOTA模型
网易有道AI团队基于Qwen3.5-27B架构,迭代开发出多模态数学推理模型 Confucius4(子曰4),遵循Apache 2.0开源协议,支持商用、二次修改与分发。模型采用「监督微调SFT+强化学习RL」迭代训练框架,通过过滤低价值视觉冗余、增强纯文本推理数据,大幅夯实数理推理能力。
该模型在Math-Figure、MathVision、logicVista等多项视觉数理基准测试中,达到同规模模型SOTA水平,在内部高难度数据集Math-Hard-500上性能提升23.2%。针对大模型普遍存在的“过度思考”问题,模型引入长度感知强化学习机制,在保证解题准确率的前提下,将思维链长度缩减43.2%,有效降低推理成本、提升响应速度,同时针对中文语境专项优化,适配国内用户使用习惯。
官方链接:https://huggingface.co/netease-youdao/Confucius4、https://modelscope.cn/models/netease-youdao/Confucius4
15. 美团开源LongCat-Video-Avatar-1.5音频驱动数字人生成框架
美团LongCat团队开源升级款音频驱动数字人视频生成框架 LongCat-Video-Avatar-1.5,核心升级为将原有Wav2Vec2音频编码器替换为精度更高的Whisper-large-v3,大幅提升虚拟人唇形同步精准度与画面动态自然度。
框架原生支持音频文本生视频、音频图像生视频、视频续写三大核心任务,可泛化适配真人、动漫、动物、多人交互、歌舞表演等复杂场景。模型采用DMD2步数蒸馏技术,将推理流程加速至8步,同时提供INT8量化选项,有效降低显存占用、提升部署效率。官方通过508组测试数据、770名评估者的多维度人工测评,验证模型在视频写实度、画面稳定性、动态自然度上的优异表现。
模型权重基于MIT协议开源,官方明确限定:模型生成内容仅可用于学术研究,禁止一切商业用途。
官方链接:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/、https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5、https://github.com/meituan-longcat/LongCat-Video
16. Runway推出Aleph 2.0视频编辑模型与Edit Studio创作工具
Runway 发布旗舰视频编辑模型升级版 Aleph 2.0,同步上线专属创作工具 Edit Studio,全方位升级AI精细化视频编辑能力。模型支持最长30秒、1080p分辨率的高清视频处理,编辑过程中可精准保留画面未修改区域细节,杜绝无效画面变动与画面失真问题。
新增图像级精准控制能力,用户可通过修改单帧画面指导整体视频生成效果,同时支持跨多镜头、多场景切换批量编辑,适配影视剪辑、短视频创作等复杂场景。配套的Edit Studio工具支持生成前实时预览编辑效果,大幅降低创作试错成本、提升内容迭代效率。
目前所有功能已面向Runway全部付费用户开放,仅支持桌面网页端使用。
官方链接:https://runwayml.com/news/introducing-aleph-2-and-edit-studio
17. 智谱发布GLM-5.1-HighSpeed高速推理旗舰模型(400 tokens/s)
智谱AI联合TileRT团队,推出GLM-5.1旗舰模型高速迭代版本 GLM-5.1-HighSpeed。该版本并非轻量化阉割模型,完整保留原版旗舰模型的综合认知能力与高强度代码生成能力,无能力损耗。
依托常驻Engine Kernel内核、异构Worker调度等系统级深度优化技术,模型推理速度大幅提升,官方实测输出速度可达400 tokens/s,刷新当前全球主流大模型厂商API推理速度纪录。目前该高速模型API未全面对外开放,仅对智谱BigModel开放平台的部分企业客户定向内测使用。
官方链接:https://mp.weixin.qq.com/s/FJn5athj8G4y2narTzMSyA、https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1-highspeed、https://www.tilert.ai/blog/speed-as-the-next-scaling-law.html
18. 千问Qwen3.7-Max全端免费开放,阿里云百炼限时五折优惠
阿里千问旗舰模型 Qwen3.7-Max 已完成全端部署,正式面向普通用户免费开放体验。用户只需将千问APP更新至6.9.7及以上版本,即可通过手机端、PC客户端、网页端免费使用模型全部能力,涵盖智能推理、代码生成、自主Agent执行等核心功能。
商用落地层面,阿里云百炼平台已正式上线 Qwen3.7-Max 模型调用接口,同时开启**限时五折**优惠活动,大幅降低企业开发者、工作室的模型调用与落地成本,兼顾个人体验与商业化部署双重需求。
官方链接:https://mp.weixin.qq.com/s/eBQwL51ahGU2OgSuaYPGmQ
19. OpenBMB联合高校与企业开源昇腾910B原生训练BitCPM-CANN量化模型
OpenBMB 联合面壁智能、清华大学,开源业界首个基于华为昇腾910B NPU端到端原生训练的 BitCPM-CANN 三值大模型系列,模型涵盖0.5B、1B、3B、8B多种参数规格,全面适配国产昇腾算力生态。
模型采用1.58-bit极致量化架构,相较传统BF16模型内存占用降低6倍,极大降低端侧与算力设备部署门槛。性能留存表现优异,在11项权威基准测试中,1B-8B规格模型可保留全精度MiniCPM4模型95%-97%的核心能力,实现低成本部署与高性能推理的完美平衡。
目前模型已同步上架Hugging Face、ModelScope两大开源平台,助力国产大模型轻量化落地。
官方链接:https://x.com/OpenBMB/status/2057816337880355220、https://huggingface.co/collections/openbmb/bitcpm4-cann、https://www.modelscope.cn/collections/OpenBMB/BitCPM4-CANN
20. 网易有道推出Confucius4-TTS多语种零样本语音克隆引擎
网易有道基于Confucius4模型体系,全新推出Confucius4-TTS零样本语音克隆引擎,采用「语音编码器+大语言模型」创新架构,主打多语种高精度音色复刻与跨语言语音合成能力。
该引擎支持14种语言零样本声音克隆,无需匹配参考文本即可完成音色迁移,可完整保留说话人的口音特征与情感表达,实现自然的跨语言音色转换。官方实测数据显示,仅需3秒原声素材即可完成精准音色复刻,克隆准确度超97%、音色相似度达85%以上,综合性能达到行业先进水平。
目前项目完整代码已在GitHub开源,在线演示页面对外开放免费试用,模型权重处于即将全量发布状态。
官方链接:https://huggingface.co/netease-youdao/Confucius4、https://github.com/netease-youdao/Confucius4-TTS、https://confucius4-tts.youdao.com/gradio
更多推荐



所有评论(0)