DeepSeek重磅发布多模态论文，怎么又连夜删除了？

罗马大学：2025 超级高铁（Hyperloop）：第五种新型交通方式 - 技术研发进展、优势及局限性研究报告（72 页）融资后，这一方向的训练会更顺利。IMT：2025 具身智能（Embodied AI）概念、核心要素及未来进展：趋势与挑战研究报告（25 页）IEEE：2025 具身智能（Embodied AI）综述：从模拟器到研究任务的调查分析报告（15 页）

人工智能学家

228人浏览 · 2026-05-02 17:11:25

人工智能学家 · 2026-05-02 17:11:25 发布

来源：猫探长情报局

五一放假前一天，大家都准备躺平了。DeepSeek反手就是一个大招。多模态能力灰度测试开启。部分用户打开首页，发现多了一个"识图模式"的入口。

上传图片，DeepSeek能像人一样理解画面了。

多模态团队负责人陈小康发了句话："现在，我们能看见你了。"

听起来像情话。但这是DeepSeek的聊天产品，第一次接入多模态。

然后论文就没了

更魔幻的来了。

4月30日，DeepSeek发了一篇技术报告《Thinking with Visual Primitives》（用视觉原语思考）。五一节前一天发重磅论文，这很DeepSeek。

但很快，官方连夜删除了多模态仓库和论文原文。5月1日打开Github，已经是404状态。

删除原因？官方没说。

有人猜不是内容问题，而是信息透露太多。DeepSeek这波操作，我只能说：懂的都懂。

这篇论文说了啥？

先别管删没删，内容才是重点。

这篇论文，符合DeepSeek一贯的风格：扎实，务实，用工程能力降成本。

核心就一句话：多模态模型在复杂任务上崩溃，不是因为看不见，而是因为"指不准"。

什么意思？

自然语言天然有模糊性。你让模型处理复杂空间布局，光靠文字描述，很容易产生歧义。

就像数一堆散落的硬币。你不用手指逐个按着确认，人类也会数错或数重。

DeepSeek的解法是：给模型配一只"手指"。

通过引入"视觉原语"框架，模型把点、边界框这些空间标记，提升为最小思维单元。模型在推理时，能一边"想"一边"指"，把抽象的语言逻辑指向具体空间坐标。

这灵感来自人类认知。你走迷宫或数密集物体时，会用手指这类指示性指向，来降低认知负荷、维持逻辑一致性。

DeepSeek把这套逻辑，教给了模型。

性能怎么样？

这模型基于DeepSeek-V4-Flash构建，总参数2840亿。

大量实验表明，在推理精度上实现显著突破。空间推理、视觉问答这些挑战性任务上，性能持平或超越GPT、Claude、Gemini最新版本。

DeepSeek的研究证明了一件事：多模态智能的未来，不只是"看见更多像素"，而是构建语言与视觉之间精准、无歧义的指代桥梁。

这句话，值得读三遍。

为什么之前不做多模态？

其实DeepSeek在4月24日发布了V4系列旗舰模型，但当时并没有涉及多模态。官方对V4的定义是：支持百万字超长上下文，在Agent能力、世界知识和推理性能上实现国内与开源领域领先。

多模态已经是当前大模型更新的重要方向。DeepSeek迟迟没跟上，被认为是能力上的一大短板。

有传言说，DeepSeek暂缓多模态生成的训练策略，主要源于算力和现金的掣肘。融资后，这一方向的训练会更顺利。

是不是真的？我不知道。但我知道一件事：技术路线的选择，永远比我们想象的更复杂。

一个比喻

DeepSeek这次的创新，让我想起一个场景。

你让一个盲人描述房间里的东西。他能听见你的描述，能摸到家具的轮廓，但就是没法精准指向某个具体位置。

现在，你给了他一根手杖。

他可以一边走，一边敲，一边确认。语言和空间，终于对上了。

这就是视觉原语的意义。不是让模型看得更清楚，而是让模型指得更准确。

写在最后

DeepSeek这波操作，让我想起一句话：

技术进步的本质，是把人类的认知方式，翻译成机器能理解的语言。

视觉原语框架，就是这样一个翻译器。它把人类"边指边想"的认知习惯，变成了模型推理的基本单元。

论文删了，但思路留下了。

DeepSeek的多模态时代，才刚刚开始。。。

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是“21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。