人类如何从二维的视网膜投影中感知出三维的世界？这不仅是视觉科学的核心谜题，也是人工智能领域长久以来的挑战。

Valeron83enved · 发表于 2026-2-21 05:48:44

[CV]《Human-level 3D shape perception emerges from multi-view learning》T Bonnen, J Malik, A Kanazawa [UC Berkeley] (2026)

人类如何从二维的视网膜投影中感知出三维的世界？这不仅是视觉科学的核心谜题，也是人工智能领域长久以来的挑战。

本文提出了一种全新的建模框架。他们发现，无需任何关于物体的先验假设，仅仅通过多视图学习，神经网络就能涌现出媲美人类水平的3D形状感知能力。

这篇论文不仅打破了AI在三维感知上的瓶颈，更深刻地揭示了人类感知的演化逻辑。

1. 视觉建模的范式转移：从特征提取到空间对应

长期以来，主流视觉模型（如DINOv2）将视觉视为特征提取问题，但在处理复杂的3D形状推理时，这些模型往往表现不佳。

研究者提出了一种多视图视觉互感器（VGGT-1B）。它的核心逻辑非常朴素：给模型看同一场景不同角度的照片，让它预测相机位置和视觉深度。这种训练信号与人类婴儿通过移动身体、操纵物体获得的感知反馈高度相似。

2. 零样本下的惊人表现：首次匹配人类精度

研究团队在MOCHI基准测试中对比了人类与AI的表现。任务要求在两张同一物体的不同视角图和一张干扰图中，找那个不匹配的物体。

结果令人震撼：VGGT在从未针对该任务进行微调的情况下，准确率达到了83%，与人类的78.9%基本持平。相比之下，作为其底层的视觉编码器DINOv2准确率仅为28.5%。这意味着，3D感知能力并非来自图像特征本身，而是来自模型对空间对应关系的深度理解。

3. 行为的深度同步：模型不仅做对了，连错得都和人一样

一个真正理解人类感知的模型，不仅要能给出正确答案，还要能模拟人类的迟疑与错误。

研究发现，模型的内部置信度（ALEATORIC UNCERTAINTY）能精准预测人类的错误模式：模型觉得难的题，人类也容易出错。

更神奇的是，研究者定义了一个解题层（SOLUTION LAYER）指标，即模型在第几层处理时能稳定给出正确答案。结果显示，模型解题所需的层数与人类的反应时间（RT）高度相关。这种计算动力学上的对应，暗示了AI与人类大脑在处理三维信息时可能共享某种相似的算法逻辑。

4. 涌现的本质：空间对应而非几何先验

通过可视化模型的注意力图，研究者揭示了模型是如何思考的。

在中间层，模型自发地学会了物体各部分之间的对应关系。当你指向参考图中的椅子腿，模型的注意力会自动锁定在目标图中对应的椅子腿位置，即便视角发生了剧烈变化。这种空间对应能力不是程序员写死的几何公式，而是在海量自然数据中学习预测空间信号时自然涌现的结果。

5. 科学启示：经验主义的胜利

视觉科学中一直存在经验主义与先天论之争。先天论认为感知物体需要内置的生物约束，而经验主义认为感知源于通用学习机制对感官数据的加工。

这项研究为经验主义提供了强有力的支持：一个通用的Transformer架构，在没有物体先验、没有几何约束的情况下，仅靠多视图预测任务，就学会了人类水平的3D感知。这说明，人类智能的复杂性，很大程度上源于我们所处环境数据的丰富结构。

深度思考：

感知不是对世界的被动镜像，而是对空间关系的积极重建。

3D感知的本质是一场关于对应的游戏。当模型学会了在不同视角间寻找共性，它也就理解了形状的本质。

最深刻的智能往往源于最简单的目标。预测下一刻的视角变化，竟然成为了通往三维理解的阶梯。

这不仅是计算机视觉的进步，更是我们理解自身视觉系统的一面镜子。它告诉我们，人类之所以能看透三维，是因为我们从未停止在多变的世界中寻找恒常。

arxiv.org/abs/2602.17650

人类如何从二维的视网膜投影中感知出三维的世界？这不仅是视觉科学的核心谜题，也是人工智能领域长久以来的挑战。

本帖子中包含更多资源

浏览过的版块