- 现有**空间智能(spatial intelligence)** 研究假设**oracle观测(oracle observations)**,忽视了**感知-动作循环(perception-action loop)** 中主动探索的重要性
- 需要评估智能体在主动获取信息、利用动作推理隐藏结构方面的能力
- 当前基准缺乏对**具身空间智能(embodied spatial intelligence)** 中**主动探索(active exploration)** 的系统性测试
- 构建**ESI-BENCH** 基准,基于**OmniGibson** 仿真环境,覆盖10个任务类别和29个子类别,借鉴**Spelke核心知识系统(Spelke’s core knowledge systems)**
- 要求智能体自主决定**感知(perception)、移动(locomotion)、操作(manipulation)** 能力的部署与顺序,主动积累任务相关证据
- 对多种**多模态大语言模型(MLLMs)** 进行实验,对比**主动探索(active exploration)** 与**被动探索(passive counterparts)** 的性能,并引入**人类研究(human studies)** 作为对照
- **首创性**:将观察者重新定义为行动者,提出**闭合感知-动作循环(closing the perception-action loop)** 的具身空间智能基准,超越被动处理的范式
- **发现关键现象**:主动探索显著优于被动,但模型存在**动作盲视(action blindness)**——错误动作导致级联误差;**显式3D空间感知(explicit 3D grounding)** 在深度敏感任务中有效,但错误的3D表示比2D基线更糟
- **揭示元认知鸿沟(metacognitive gap)**:模型过早高置信度确证证据,不像人类那样寻求证伪视角和修正信念,单纯改善感知或交互无法弥补
- 提出并开源了**面向具身空间智能(embodied spatial intelligence)** 的综合基准**ESI-BENCH**,为未来研究提供标准化评估平台
- 系统揭示了当前**多模态大语言模型(MLLMs)** 在主动探索、动作规划与空间推理中的局限性,指明**动作盲视** 和**元认知不足** 是主要失败原因
- 强调了**主动探索** 的价值和**闭环感知-动作学习** 的必要性,为设计更鲁棒的具身智能体提供关键启示