重磅发布|Qwen3.5-Omni 登场,全球顶尖全模态大模型解锁AI新可能
2026年AI多模态赛道再添重磅力作,阿里云千问新一代全模态大模型Qwen3.5-Omni正式亮相,以原生多模态架构打破能力边界,在音视频理解、识别、交互等215项第三方测试任务中斩获SOTA(性能最佳)成绩,跻身全球最强全模态大模型行列,重新定义AI与人类交互的全新方式。
作为千问系列的迭代升级之作,Qwen3.5-Omni跳出单一模态的局限,凭借原生多模态训练优势,实现图片、视频、语音、文字的全场景输入与输出,无论是日常交互、专业创作还是企业级应用,都能展现出远超同类模型的综合实力,让“全能AI助手”从概念走向现实。
SOTA级性能:215项任务登顶,实力碾压同类模型
Qwen3.5-Omni采用先进的混合注意力MoE架构,在海量文本、视觉数据,以及超过1亿小时的音视频数据上完成原生多模态预训练,构建起强大的多模态理解与生成能力。此次升级实现了音视频理解、跨模态推理、Agent能力的三重飞跃,在215项第三方性能测试中均取得最优成绩,用实力诠释“全球顶尖”的核心底气。
在关键测试场景中,Qwen3.5-Omni的表现尤为突出:在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中,得分大幅领先Gemini-3.1 Pro;在嘈杂环境抗干扰测试WenetSpeech中,错误率远低于同类模型,语音识别准确率达到行业顶尖水平;在多语言语音生成测试Multi-Lingual (30lang) 中,表现显著优于Gemini-2.5-Pro-TTS,多语种适配能力拉满。
全能交互体验:113种语言适配,实时对话如遇真人
Qwen3.5-Omni在语言交互领域实现重大突破,支持113种语言及方言的语音识别,以及36种语言及方言的语音生成,无论是使用人数不足一百万的毛利语,还是国内小众的海南方言,都能实现精准识别,打破语言沟通壁垒。
实时交互体验也迎来全面升级,模型能高情商捕捉用户对话意图,精准区分有效回应与随口附和,交互节奏贴合人类沟通习惯,如同与真人对话般自然流畅。同时,基于创新的ARIA技术,模型可根据用户指令自由调节语音、语调,生成的语音更稳定、更具感染力;面对“今日天气”“实时资讯”等时效性提问时,还能自主调用工具,确保回复的准确性与时效性,真正实现“懂需求、会回应”。
创新突破:音视频Vibe Coding,动动嘴就能编程
此次Qwen3.5-Omni最令人惊喜的突破,是自然涌现的音视频Vibe Coding能力,将编程门槛拉至新低。与传统纯文本、图片驱动的编程模式不同,Qwen3.5-Omni支持音视频编程——用户只需打开摄像头,对着草图口述产品需求,哪怕包含复杂的产品逻辑描述,模型也能快速理解,并直接生成带有复杂UI的APP、网页、游戏等产品原型界面,真正实现“动动嘴即可编程”。
这一创新能力并非刻意设计,而是模型在原生多模态能力持续扩展过程中自然涌现的成果,不仅降低了编程的技术门槛,更让创意落地变得高效便捷,无论是开发者快速搭建原型,还是普通用户实现创意想法,都能借助这一能力轻松完成。
专业赋能:超长音频处理,解锁企业级生产力
Qwen3.5-Omni的全模态能力还深度适配专业领域,为企业级应用带来生产力革新。模型可对视频画面的主体、人物关系、对话逻辑,乃至人物情绪起伏进行精细化拆解,自动完成视频章节切片与时间戳标注,大幅简化视频后期梳理工作。
更值得一提的是,其支持超过10小时的超长音频输入,能快速完成音频转写、内容提炼与重点标注,将原本需要数小时的繁琐工作缩短至秒级,大幅降低企业在视频创作、内容审核、音频处理等领域的管理成本,落地价值显著。
目前,普通用户可前往Qwen Chat免费体验Qwen3.5-Omni的核心能力,开发者与企业用户则可通过阿里云百炼平台,调用该模型的Plus、Flash、Light三种API,适配不同场景的使用需求。好消息是,这款全球顶尖的全模态大模型即将登陆OPE开放平台,届时用户无需切换多平台、无需复杂配置,即可在OPE平台轻松调用Qwen3.5-Omni,搭配平台充足的Token额度与零门槛部署优势,解锁更高效、更便捷的AI使用体验,敬请期待OPE开放平台的上新通知!
更多推荐



所有评论(0)