阿里云通义千问重磅开源多模态模型 Qwen3-VL 系列：小参数版本性能对标国际顶尖水平...

2025年10月04日，阿里云通义千问正式对外发布新一轮开源成果，包括Qwen3-VL-30B-A3B-Instruct、Thinking模型及其FP8量化版本，同时推出超大规模模型Qwen3-VL-235B-A22B的FP8版本。这一系列模型的开源，标志着国内多模态大模型在轻量化部署与高性能应用领域取得重要突破。据官方披露，此次开源的Qwen3-VL-30B-A3B系列模型在保持30亿激活参..

平樱玫Duncan

565人浏览 · 2025-10-27 00:53:19

平樱玫Duncan · 2025-10-27 00:53:19 发布

阿里云通义千问重磅开源多模态模型 Qwen3-VL 系列：小参数版本性能对标国际顶尖水平

【免费下载链接】Qwen3-VL-235B-A22B-Instruct-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-235B-A22B-Instruct-FP8

据官方披露，此次开源的Qwen3-VL-30B-A3B系列模型在保持30亿激活参数轻量化设计的同时，实现了通义千问3-VL架构的全能力集成。该模型在科学与工程（STEM）问题解决、视觉问答（VQA）、多语言光学字符识别（OCR）、视频内容理解以及智能体（Agent）任务执行等核心场景中，性能已达到甚至超越GPT-5-Mini与Claude4-Sonnet等国际主流模型水平。目前，相关模型已在魔搭社区、Hugging Face等平台开放获取，开发者可通过仓库地址 https://gitcode.com/hf_mirrors/Qwen/Qwen3-VL-235B-A22B-Instruct-FP8 获取完整资源。

作为通义千问系列迄今最先进的视觉语言模型，Qwen3-VL-30B-A3B系列在技术架构上实现全面升级：文本理解与生成能力实现跨模态无缝融合，视觉感知精度与推理深度显著提升，上下文窗口原生支持256K tokens并可扩展至1M，空间定位与动态视频解析能力大幅增强，同时具备更完善的智能体交互功能。该系列提供从边缘设备到云端服务器的全场景部署方案，涵盖密集型与混合专家（MoE）两种架构，并针对指令跟随（Instruct）与复杂推理（Thinking）场景分别优化模型版本。

在核心功能增强方面，Qwen3-VL-30B-A3B系列展现出六大技术突破：其一，实现全平台图形界面（GUI）智能操作，可精准识别PC与移动端界面元素、解析功能逻辑并自主调用工具完成任务；其二，升级视觉编码能力，支持从图像/视频直接生成Draw.io流程图及HTML/CSS/JS代码；其三，构建高级空间感知系统，能精确判断物体位置关系、视角变换与遮挡情况，为空间推理与具身智能奠定2D基础并拓展3D能力；其四，突破超长上下文处理瓶颈，可完整解析整本书籍与小时级视频内容，实现秒级索引与全量信息回忆；其五，强化多模态推理引擎，在数学证明、因果分析等STEM领域展现出基于逻辑链与证据链的严谨推理能力；其六，优化视觉识别系统，通过大规模高质量数据预训练，实现名人、动漫角色、商品、地标、生物等细分类别的精准识别。

值得关注的是，该模型在OCR功能上实现重大升级：支持语言种类从19种扩展至32种，新增对低光照、模糊、倾斜等复杂场景的鲁棒处理能力，强化罕见文字、古文字与专业术语的识别准确率，并优化长文档结构解析算法。文本理解能力已达到纯语言大模型（LLMs）水平，通过文本-视觉信息的深度融合，实现跨模态内容的无损统一理解。

此次通义千问开源行动，不仅为全球开发者提供高性能、低成本的多模态模型选择，更通过技术普惠加速人工智能在智能制造、智能驾驶、智慧医疗等关键领域的场景落地。随着Qwen3-VL系列模型的广泛应用，预计将推动多模态智能体技术从实验室走向产业实践，为下一代人机交互系统构建更自然、更高效的技术底座。

【免费下载链接】Qwen3-VL-235B-A22B-Instruct-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-235B-A22B-Instruct-FP8