BabyVision基准揭示多模态模型视觉能力不足

计算机视觉作为人工智能的核心领域，其基础能力评估一直面临挑战。传统视觉评估方法过度依赖语言表达，难以准确衡量系统的非语言视觉理解能力。BabyVision基准通过发展心理学视角，系统测试精细辨别、视觉追踪、空间感知和模式识别四大基础能力，揭示了当前多模态大语言模型（MLLMs）在基础视觉任务上的显著缺陷。研究表明，即使是先进模型如Gemini3-Pro-Preview，在视觉追踪等任务上的表现也远

语嫣凝冰

151人浏览 · 2026-04-26 13:23:34

语嫣凝冰 · 2026-04-26 13:23:34 发布

1. BabyVision基准：重新定义多模态模型的视觉能力评估

在人工智能领域，视觉推理能力一直是衡量系统智能水平的重要指标。传统观点认为，随着多模态大语言模型（MLLMs）的发展，AI系统已经具备了接近人类的视觉理解能力。然而，BabyVision基准的推出彻底颠覆了这一认知——它揭示了一个令人震惊的事实：即使是当前最先进的MLLMs，在基础视觉任务上的表现也远不及3岁儿童。

1.1 视觉推理的本质与挑战

视觉推理不同于简单的图像识别，它要求系统能够：

理解物体间的空间关系
追踪动态变化的视觉元素
从复杂场景中提取关键特征
进行逻辑推断和问题求解

这种能力的核心在于 非语言的视觉理解 ——人类在婴幼儿时期就能掌握的技能，如判断物体遮挡关系、追踪移动目标、识别简单模式等。这些能力构成了我们认知世界的基础，却成为了AI系统的"阿喀琉斯之踵"。

实际案例：在迷宫导航任务中，人类儿童可以轻松追踪路径，而最先进的Gemini3-Pro-Preview模型准确率仅为30%，远低于6岁儿童的平均水平（约70%）。

1.2 现有评估体系的局限性

当前主流的视觉评估基准存在三个主要问题：

语言依赖过重 ：大多数任务需要通过语言表达答案，无法测试纯粹的视觉理解
知识偏向性 ：过度依赖领域专业知识，忽视了基础视觉能力
评估维度单一 ：缺乏对视觉追踪、空间想象等核心能力的系统测试

这些问题导致模型在复杂知识任务上表现优异，却在基础视觉任务上频频失败。例如，一个模型可能解决高等数学问题，却无法正确判断两个简单图形是否完全相同。

2. BabyVision基准的设计与架构

2.1 基准构建的科学依据

BabyVision的设计基于发展心理学研究，重点关注人类在语言能力形成前就已掌握的四种核心视觉能力：

2.1.1 精细辨别能力

识别细微视觉差异
发现独特元素
匹配阴影和轮廓
示例任务：从49个相似图案中找出唯一不同的一个

2.1.2 视觉追踪能力

跟踪连续路径
保持物体身份一致性
解决迷宫问题
示例任务：在复杂交叉线条中追踪特定曲线

2.1.3 空间感知能力

理解3D结构
心理旋转和折叠
计算遮挡物体数量
示例任务：根据2D展开图判断3D立方体的正确视图

2.1.4 视觉模式识别

识别逻辑和几何模式
理解旋转和镜像关系
预测模式延续
示例任务：完成颜色和形状的序列模式

2.2 数据收集与质量控制

BabyVision采用严格的三阶段数据构建流程：

种子收集阶段 ：
- 参考儿童发展心理学教材
- 筛选100个典型视觉任务原型
- 建立4大类22子类的分类体系
数据扩展阶段 ：
- 通过反向图像搜索扩展数据集
- 过滤含文字或文化特定内容的图像
- 最终收集约4000张候选图像
标注与验证阶段 ：
- 专业标注员编写问题和答案
- 双盲专家评审确保视觉唯一性
- 最终精选388个高质量测试项目

质量控制指标：问题平均长度25.9词，65.2%为填空题，34.8%为选择题，有效减少语言偏差。

3. 核心发现：语言化瓶颈与模型局限性

3.1 性能差距全景图

BabyVision的评估结果揭示了惊人的性能鸿沟：

测试对象	平均准确率	与成人差距
成人基准	94.1%	-
6岁儿童	~70%	~24%
Gemini3-Pro-Preview	49.7%	44.4%
GPT-5.2	34.4%	59.7%
Qwen3-VL-Plus	19.2%	74.9%

特别值得注意的是，在视觉追踪任务中，最佳模型表现比人类低51.2个百分点，展现出最大的能力缺口。

3.2 四大系统性失败模式

通过错误分析，研究团队识别出当前MLLMs存在的四种根本性缺陷：

3.2.1 细节丢失问题

模型将连续视觉特征压缩为离散语言描述时，丢失了关键的细微差异。例如在"找不同"任务中，模型可能注意到大致的形状差异，却无法感知精确的轮廓对齐。

技术根源 ：视觉编码器的下采样过程导致高频信息丢失，而语言解码器无法精确重建这些细节。

3.2.2 拓扑一致性缺失

模型难以维持复杂空间结构中元素的身份连续性。在追踪交叉线条的任务中，模型常在交叉点"跳线"，混淆不同轨迹。

认知对比 ：人类利用初级视觉皮层的轮廓整合机制，而模型缺乏类似的持续表征能力。

3.2.3 空间想象失败

模型无法进行准确的心理空间变换。在3D视图任务中，模型试图通过语言规则推断投影关系，而非构建真实的体积模型。

典型错误 ：模型可能正确描述物体的相对高度，却完全错误地预测了遮挡关系。

3.2.4 表面特征混淆

模型过度关注颜色、纹理等表面特征，而忽视深层的结构关系。在模式识别任务中，模型可能基于颜色变化做出预测，而非真正的几何变换逻辑。

案例：当颜色线索与结构线索冲突时，模型准确率下降达40%。

3.3 语言化瓶颈理论

这些失败模式共同指向一个核心问题—— 语言化瓶颈 ：当前MLLMs必须将视觉输入转换为语言表征才能进行推理，导致无法用语言精确描述的关键视觉信息在转换过程中丢失。

这种架构限制使得模型：

无法处理"不可言说"的视觉特征
依赖不精确的语言近似
失去人类视觉推理的并行处理优势

4. BabyVision-GEN：视觉化推理的新路径

4.1 从语言输出到视觉生成

基于"许多视觉任务更适合用图形而非语言解决"的洞察，研究团队开发了BabyVision-GEN——通过图像生成而非语言回答来评估视觉推理能力。

创新设计 ：

280个适配生成评估的任务
要求模型直接在原图上标注答案
自动评估系统（与人工判断96.1%一致）
支持路径追踪、模式补全等视觉化解决方案

4.2 生成模型的潜力与局限

评估结果显示生成模型在某些任务上展现出独特优势：

模型	总体准确率	最佳子任务表现
NanoBanana-Pro	18.3%	精细辨别(24.5%)
GPT-Image-1.5	9.8%	空间感知(12.4%)
Qwen-Image-Edit	4.8%	模式识别(7.9%)

虽然整体性能仍有限，但生成模型在以下方面表现出色：

直接在图像上圈出差异区域
绘制完整路径
标记空间关系

关键发现 ：生成模型在需要连续空间推理的任务上（如迷宫导航）仍然表现不佳，表明单纯的生成能力不足以解决所有视觉推理挑战。

5. 技术启示与未来方向

5.1 架构创新建议

基于BabyVision的发现，未来多模态系统可能需要：

混合编码架构 ：
- 保留高保真视觉特征
- 并行视觉和语言处理流
- 动态特征融合机制
神经符号结合 ：
- 符号系统处理离散关系
- 神经网络处理连续特征
- 两者间的可微分接口
递归视觉注意力 ：
- 维持物体身份表征
- 跨时间步的视觉记忆
- 主动感知机制

5.2 训练范式革新

实验表明，强化学习与可验证奖励（RLVR）可以提升视觉推理能力：

Qwen3-VL-8B经RLVR微调后，整体准确率提升4.8%
在空间感知任务上提升5.9%
但在视觉追踪任务上出现1.2%下降

这一结果暗示，不同视觉能力可能需要差异化的训练方法。

5.3 评估生态建设

BabyVision为AI视觉评估带来了新范式：

发展对标 ：将模型表现与不同年龄人类基准比较
能力分解 ：细粒度分析22种子能力
多模态输出 ：支持语言和生成双重评估
动态扩展 ：持续纳入新的视觉挑战

6. 实际应用与影响

6.1 工业质检场景

在电子元件检测中，模型需要：

发现微小缺陷（精细辨别）
追踪电路路径（视觉追踪）
理解3D结构（空间感知）
识别缺陷模式（模式识别）

BabyVision揭示的模型局限直接影响这些应用的可靠性。

6.2 自动驾驶挑战

复杂交通场景要求：

持续追踪多车辆运动
预测遮挡区域的行人
理解道路几何关系
识别交通标志模式

当前模型在这些基础视觉任务上的不足可能造成安全隐患。

6.3 医疗影像分析

医生进行影像诊断时依赖：

发现细微异常
追踪血管神经路径
理解器官空间关系
识别病变模式

AI系统若缺乏这些基础能力，难以获得临床信任。

7. 关键实践建议

基于BabyVision研究成果，开发多模态应用时应注意：

能力审计 ：使用BabyVision评估模型的基础视觉能力
任务适配 ：避免依赖模型薄弱的能力（如复杂视觉追踪）
混合系统 ：结合传统CV算法弥补MLLMs不足
评估扩展 ：不仅测试最终准确率，也分析错误模式
持续监测 ：随着模型更新重新评估基础能力

在计算机视觉领域耕耘多年，我深刻体会到BabyVision带来的范式转变。它提醒我们，真正的智能不仅在于解决复杂问题，更在于掌握那些"简单"到容易被忽视的基础能力。或许，AI发展的下一个突破口，就藏在我们人类最早获得的那批视觉技能之中。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Grok 类实时检索的陷阱：如何避免污染 RAG 事实链

DeepSeek技术社区

DeepSeek-V4 长上下文 RAG 实践：何时该用混合检索 vs 纯向量搜索？

DeepSeek技术社区

DeepSeek-V4 路由漂移：为什么改个模型别名，客服工单能爆一周？

DeepSeek技术社区

所有评论(0)

查看更多评论

语嫣凝冰

@weixin_42602241

已为社区贡献10条内容

BabyVision基准揭示多模态模型视觉能力不足

语嫣凝冰

1. BabyVision基准：重新定义多模态模型的视觉能力评估

1.1 视觉推理的本质与挑战

1.2 现有评估体系的局限性

2. BabyVision基准的设计与架构

2.1 基准构建的科学依据

2.1.1 精细辨别能力

2.1.2 视觉追踪能力

2.1.3 空间感知能力

2.1.4 视觉模式识别

2.2 数据收集与质量控制

3. 核心发现：语言化瓶颈与模型局限性

3.1 性能差距全景图

3.2 四大系统性失败模式

3.2.1 细节丢失问题

3.2.2 拓扑一致性缺失

3.2.3 空间想象失败

3.2.4 表面特征混淆

3.3 语言化瓶颈理论

4. BabyVision-GEN：视觉化推理的新路径

4.1 从语言输出到视觉生成

4.2 生成模型的潜力与局限

5. 技术启示与未来方向

5.1 架构创新建议

5.2 训练范式革新

5.3 评估生态建设

6. 实际应用与影响

6.1 工业质检场景

6.2 自动驾驶挑战

6.3 医疗影像分析

7. 关键实践建议

所有评论(0)

温馨提示：您尚未绑定手机号

语嫣凝冰