找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

人类如何从二维的视网膜投影中感知出三维的世界?这不仅是视觉科学的核心谜题,也是人工智能领域长久以来的挑战。

[复制链接]

6

主题

0

回帖

20

积分

新手上路

积分
20
发表于 4 小时前 | 显示全部楼层 |阅读模式
[CV]《Human-level 3D shape perception emerges from multi-view learning》T Bonnen, J Malik, A Kanazawa [UC Berkeley] (2026)


人类如何从二维的视网膜投影中感知出三维的世界?这不仅是视觉科学的核心谜题,也是人工智能领域长久以来的挑战。

本文提出了一种全新的建模框架。他们发现,无需任何关于物体的先验假设,仅仅通过多视图学习,神经网络就能涌现出媲美人类水平的3D形状感知能力。

这篇论文不仅打破了AI在三维感知上的瓶颈,更深刻地揭示了人类感知的演化逻辑。

1. 视觉建模的范式转移:从特征提取到空间对应

长期以来,主流视觉模型(如DINOv2)将视觉视为特征提取问题,但在处理复杂的3D形状推理时,这些模型往往表现不佳。

研究者提出了一种多视图视觉互感器(VGGT-1B)。它的核心逻辑非常朴素:给模型看同一场景不同角度的照片,让它预测相机位置和视觉深度。这种训练信号与人类婴儿通过移动身体、操纵物体获得的感知反馈高度相似。

2. 零样本下的惊人表现:首次匹配人类精度

研究团队在MOCHI基准测试中对比了人类与AI的表现。任务要求在两张同一物体的不同视角图和一张干扰图中,找那个不匹配的物体。

结果令人震撼:VGGT在从未针对该任务进行微调的情况下,准确率达到了83%,与人类的78.9%基本持平。相比之下,作为其底层的视觉编码器DINOv2准确率仅为28.5%。这意味着,3D感知能力并非来自图像特征本身,而是来自模型对空间对应关系的深度理解。

3. 行为的深度同步:模型不仅做对了,连错得都和人一样

一个真正理解人类感知的模型,不仅要能给出正确答案,还要能模拟人类的迟疑与错误。

研究发现,模型的内部置信度(ALEATORIC UNCERTAINTY)能精准预测人类的错误模式:模型觉得难的题,人类也容易出错。

更神奇的是,研究者定义了一个解题层(SOLUTION LAYER)指标,即模型在第几层处理时能稳定给出正确答案。结果显示,模型解题所需的层数与人类的反应时间(RT)高度相关。这种计算动力学上的对应,暗示了AI与人类大脑在处理三维信息时可能共享某种相似的算法逻辑。

4. 涌现的本质:空间对应而非几何先验

通过可视化模型的注意力图,研究者揭示了模型是如何思考的。

在中间层,模型自发地学会了物体各部分之间的对应关系。当你指向参考图中的椅子腿,模型的注意力会自动锁定在目标图中对应的椅子腿位置,即便视角发生了剧烈变化。这种空间对应能力不是程序员写死的几何公式,而是在海量自然数据中学习预测空间信号时自然涌现的结果。

5. 科学启示:经验主义的胜利

视觉科学中一直存在经验主义与先天论之争。先天论认为感知物体需要内置的生物约束,而经验主义认为感知源于通用学习机制对感官数据的加工。

这项研究为经验主义提供了强有力的支持:一个通用的Transformer架构,在没有物体先验、没有几何约束的情况下,仅靠多视图预测任务,就学会了人类水平的3D感知。这说明,人类智能的复杂性,很大程度上源于我们所处环境数据的丰富结构。

深度思考:

感知不是对世界的被动镜像,而是对空间关系的积极重建。

3D感知的本质是一场关于对应的游戏。当模型学会了在不同视角间寻找共性,它也就理解了形状的本质。

最深刻的智能往往源于最简单的目标。预测下一刻的视角变化,竟然成为了通往三维理解的阶梯。

这不仅是计算机视觉的进步,更是我们理解自身视觉系统的一面镜子。它告诉我们,人类之所以能看透三维,是因为我们从未停止在多变的世界中寻找恒常。

arxiv.org/abs/2602.17650














本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-21 10:08 , Processed in 0.149424 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表