ESI-Bench：迈向闭环感知-行动的具身空间智能

📝 论文摘要

空间智能通过感知-行动循环展开：智能体通过行动获取观察结果，并推理观察如何随行动变化。它们并非被动处理所见内容，而是主动揭示不可见的部分——那些仅凭被动感知无法解析的遮蔽结构、动力学特性、包含关系及功能属性。我们突破了先前预设全知观察者（oracle observations）的空间智能框架，将观察者重新定位为行动者。基于OmniGibson平台，以Spelke核心知识体系为理论基础，我们提出了ESI-BENCH这一涵盖10个任务类别和29个子类别的具身空间智能综合基准。智能体需自主决定部署何种能力（感知、移动、操作）及其执行顺序，以主动积累任务相关证据。我们针对最先进的多模态大语言模型展开广泛实验，发现主动探索性能显著优于被动模式——智能体无需明确指令便能自发涌现空间策略，而随机多视角方法在消耗更多图像的前提下，往往引入噪声而非有效信号。大多数失败根源并非感知能力薄弱，而是行动盲视：错误行动选择导致低质量观测，进而引发级联误差。尽管显式3D空间定位能稳定深度敏感型任务的推理过程，但存在缺陷的3D表征比2D基线更具破坏性——它会扭曲空间关系。人类研究进一步揭示：不同于人类会主动寻找证伪视角并在矛盾中修正信念，模型不论证据质量均提前做出高置信度断言，暴露了无论更强的感知还是更丰富的具身交互都无法弥补的元认知鸿沟。

🎯 研究动机

- 现有**空间智能(spatial intelligence)** 研究假设**oracle观测(oracle observations)**，忽视了**感知-动作循环(perception-action loop)** 中主动探索的重要性 - 需要评估智能体在主动获取信息、利用动作推理隐藏结构方面的能力 - 当前基准缺乏对**具身空间智能(embodied spatial intelligence)** 中**主动探索(active exploration)** 的系统性测试

🔧 核心方法

- 构建**ESI-BENCH** 基准，基于**OmniGibson** 仿真环境，覆盖10个任务类别和29个子类别，借鉴**Spelke核心知识系统(Spelke’s core knowledge systems)** - 要求智能体自主决定**感知(perception)、移动(locomotion)、操作(manipulation)** 能力的部署与顺序，主动积累任务相关证据 - 对多种**多模态大语言模型(MLLMs)** 进行实验，对比**主动探索(active exploration)** 与**被动探索(passive counterparts)** 的性能，并引入**人类研究(human studies)** 作为对照

💡 核心创新

- **首创性**：将观察者重新定义为行动者，提出**闭合感知-动作循环(closing the perception-action loop)** 的具身空间智能基准，超越被动处理的范式 - **发现关键现象**：主动探索显著优于被动，但模型存在**动作盲视(action blindness)**——错误动作导致级联误差；**显式3D空间感知(explicit 3D grounding)** 在深度敏感任务中有效，但错误的3D表示比2D基线更糟 - **揭示元认知鸿沟(metacognitive gap)**：模型过早高置信度确证证据，不像人类那样寻求证伪视角和修正信念，单纯改善感知或交互无法弥补

🏆 总体贡献

- 提出并开源了**面向具身空间智能(embodied spatial intelligence)** 的综合基准**ESI-BENCH**，为未来研究提供标准化评估平台 - 系统揭示了当前**多模态大语言模型(MLLMs)** 在主动探索、动作规划与空间推理中的局限性，指明**动作盲视** 和**元认知不足** 是主要失败原因 - 强调了**主动探索** 的价值和**闭环感知-动作学习** 的必要性，为设计更鲁棒的具身智能体提供关键启示

ESI-Bench：迈向闭环感知-行动的具身空间智能
ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

📊 核心分析

ESI-Bench：迈向闭环感知-行动的具身空间智能 ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

📊 核心分析

ESI-Bench：迈向闭环感知-行动的具身空间智能
ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop