重磅发布｜Qwen3.5-Omni 登场，全球顶尖全模态大模型解锁AI新可能

晓晓不觉早

365人浏览 · 2026-04-01 14:57:26

晓晓不觉早 · 2026-04-01 14:57:26 发布

2026年AI多模态赛道再添重磅力作，阿里云千问新一代全模态大模型Qwen3.5-Omni正式亮相，以原生多模态架构打破能力边界，在音视频理解、识别、交互等215项第三方测试任务中斩获SOTA（性能最佳）成绩，跻身全球最强全模态大模型行列，重新定义AI与人类交互的全新方式。

作为千问系列的迭代升级之作，Qwen3.5-Omni跳出单一模态的局限，凭借原生多模态训练优势，实现图片、视频、语音、文字的全场景输入与输出，无论是日常交互、专业创作还是企业级应用，都能展现出远超同类模型的综合实力，让“全能AI助手”从概念走向现实。

SOTA级性能：215项任务登顶，实力碾压同类模型

Qwen3.5-Omni采用先进的混合注意力MoE架构，在海量文本、视觉数据，以及超过1亿小时的音视频数据上完成原生多模态预训练，构建起强大的多模态理解与生成能力。此次升级实现了音视频理解、跨模态推理、Agent能力的三重飞跃，在215项第三方性能测试中均取得最优成绩，用实力诠释“全球顶尖”的核心底气。

在关键测试场景中，Qwen3.5-Omni的表现尤为突出：在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中，得分大幅领先Gemini-3.1 Pro；在嘈杂环境抗干扰测试WenetSpeech中，错误率远低于同类模型，语音识别准确率达到行业顶尖水平；在多语言语音生成测试Multi-Lingual (30lang) 中，表现显著优于Gemini-2.5-Pro-TTS，多语种适配能力拉满。

全能交互体验：113种语言适配，实时对话如遇真人

Qwen3.5-Omni在语言交互领域实现重大突破，支持113种语言及方言的语音识别，以及36种语言及方言的语音生成，无论是使用人数不足一百万的毛利语，还是国内小众的海南方言，都能实现精准识别，打破语言沟通壁垒。

实时交互体验也迎来全面升级，模型能高情商捕捉用户对话意图，精准区分有效回应与随口附和，交互节奏贴合人类沟通习惯，如同与真人对话般自然流畅。同时，基于创新的ARIA技术，模型可根据用户指令自由调节语音、语调，生成的语音更稳定、更具感染力；面对“今日天气”“实时资讯”等时效性提问时，还能自主调用工具，确保回复的准确性与时效性，真正实现“懂需求、会回应”。

创新突破：音视频Vibe Coding，动动嘴就能编程

此次Qwen3.5-Omni最令人惊喜的突破，是自然涌现的音视频Vibe Coding能力，将编程门槛拉至新低。与传统纯文本、图片驱动的编程模式不同，Qwen3.5-Omni支持音视频编程——用户只需打开摄像头，对着草图口述产品需求，哪怕包含复杂的产品逻辑描述，模型也能快速理解，并直接生成带有复杂UI的APP、网页、游戏等产品原型界面，真正实现“动动嘴即可编程”。

这一创新能力并非刻意设计，而是模型在原生多模态能力持续扩展过程中自然涌现的成果，不仅降低了编程的技术门槛，更让创意落地变得高效便捷，无论是开发者快速搭建原型，还是普通用户实现创意想法，都能借助这一能力轻松完成。

专业赋能：超长音频处理，解锁企业级生产力

Qwen3.5-Omni的全模态能力还深度适配专业领域，为企业级应用带来生产力革新。模型可对视频画面的主体、人物关系、对话逻辑，乃至人物情绪起伏进行精细化拆解，自动完成视频章节切片与时间戳标注，大幅简化视频后期梳理工作。

更值得一提的是，其支持超过10小时的超长音频输入，能快速完成音频转写、内容提炼与重点标注，将原本需要数小时的繁琐工作缩短至秒级，大幅降低企业在视频创作、内容审核、音频处理等领域的管理成本，落地价值显著。

目前，普通用户可前往Qwen Chat免费体验Qwen3.5-Omni的核心能力，开发者与企业用户则可通过阿里云百炼平台，调用该模型的Plus、Flash、Light三种API，适配不同场景的使用需求。好消息是，这款全球顶尖的全模态大模型即将登陆OPE开放平台，届时用户无需切换多平台、无需复杂配置，即可在OPE平台轻松调用Qwen3.5-Omni，搭配平台充足的Token额度与零门槛部署优势，解锁更高效、更便捷的AI使用体验，敬请期待OPE开放平台的上新通知！