阿里Qwen3.5真要来了？网友扒代码发现：它居然能“看图说话”！

是小凡呀

239人浏览 · 2026-02-11 17:40:38

是小凡呀 · 2026-02-11 17:40:38 发布

最近科技圈有个小火苗，正在悄悄烧成大火——
阿里通义千问的新模型 Qwen3.5，可能要来了，而且它居然会“看图”！

这事最早在2月9日露出端倪：有人在开源平台 Hugging Face 上发现一个神秘的代码提交，署名来自阿里，内容疑似是 Qwen3.5 的模型集成。当时大家还在猜：是不是又是个小升级？

结果，2月10日，开发者们直接实锤了：
这模型，真的内置了“眼睛”！

📸 它不是“假装看图”，而是真·看得懂

你可能听说过“多模态AI”——就是既能读文字，又能理解图片的那种。但很多模型其实是“拼凑”的：先用一个工具把图转成文字描述，再交给语言模型处理。效果嘛……经常答非所问，比如把“一只黑猫”说成“一只狗”。

但这次不一样。
社区开发者仔细翻了 Qwen3.5 的代码，发现里面直接嵌入了视觉 token 处理模块——也就是说，图片和文字从一开始就在同一个“大脑”里被理解。这叫“原生多模态”，是目前最先进的方式。

简单类比：
以前的模型是“盲人摸象+别人口述”，
而 Qwen3.5 可能是“自己睁眼看世界”。

🔍 网友都挖到啥了？

有技术大神扒出它的分词器配置文件，里面赫然出现了 <vision>、<img_0> 这类特殊标记——这就是给图像预留的“座位号”。

还有人尝试加载部分组件，发现模型能识别图像输入的位置，并尝试和文字做关联。虽然官方还没放出完整模型权重，但架构设计已经“藏不住”了。

一句话总结：这不是缝合怪，是全新造的“感官系统”。

🌟 为什么这事值得你关心？

因为一旦阿里把 Qwen3.5 正式开源（而且大概率免费），就意味着：

中小企业可以用它做智能客服、商品图文生成、内容审核；
教育公司能开发“看图解题”的AI助教；
创作者可以用它自动生成带图的短视频脚本；
高校学生也能低成本跑起顶尖多模态实验……

更重要的是——全球真正开源、支持原生多模态的大模型，目前几乎空白。如果阿里抢先一步，中国AI生态将迎来一次重大升级。

🗓️ 什么时候能上手？

按阿里的习惯，只要代码合并进 Hugging Face，很快就会官宣。
业内普遍预测：2月底到3月初，很可能配合阿里云春季发布会一起亮相。

别忘了，阿里自家的“通义万相”（AI绘画）、“通义听悟”（会议记录）早就支持图文理解了。Qwen3.5 很可能就是它们背后的“新大脑”。

💬 最后说一句

从 Qwen1 到 Qwen3，阿里一直在坚持一件事：真开源、真可用、真对开发者友好。
如果 Qwen3.5 成为国产首个原生多模态开源大模型，那2026年，咱们的AI工具箱又要大升级了！

👇 你觉得下一个AI爆款应用，会是“看图说话”吗？欢迎留言聊聊～

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

[特殊字符]ChatGPT到底是怎么“听懂“你的？图文详解大语言模型原理（小白必看）

大语言模型是当前AI领域最令人兴奋的技术之一。它不是科幻电影中的"通用人工智能"，但它确实在很多任务上展现出了令人惊叹的表现。作为一名普通用户，你不需要理解它背后的数学原理，但了解它的基本工作方式、能力边界和使用方法，会让你更好地利用这个工具。LLM的时代已经到来。与其焦虑它会不会取代你，不如现在就开始学会使用它。希望这篇文章能帮助你建立起对LLM的基本认知。如果你有任何问题，欢迎在评论区交流讨论

DeepSeek技术社区

DeepSeek-Reasonix最新版v1.7.0，附安装包

DeepSeek技术社区

“改全文”还是“逐句诊断”？ChatGPT 润色论文的两种用法

AI润色论文的实用指南：改全文与逐句诊断的双轨策略论文润色存在两种核心方法：改全文适合初稿阶段快速提升语言流畅度，但可能造成语义偏移和术语混乱；逐句诊断则更适合定稿阶段精准把控学术表达，能有效保留研究逻辑和原意。理想的工作流程应分阶段进行：先用改全文统一语言风格，再对摘要、结果、讨论等关键部分进行逐句诊断，最后人工复核术语一致性和结论准确性。特别要注意避免AI擅自增强结论、改变专业术语或过度修饰