将具身问答从感知拓展到决策

📝 论文摘要

具身问答（Embodied Question Answering, EQA）将感知、推理和交互整合于具身环境之中。然而，现有数据集和基准仍较为碎片化，各自聚焦于空间理解或程序推理等有限的推理技能子集，缺乏用于综合评估的统一大规模框架。为此，我们提出EQA-Decision——一个大规模具身问答数据集，系统性地覆盖了具身推理的四个互补维度：静态场景构建、空间理解、任务动态推理与即时决策。该数据集包含超过四百万个问答对，并在多样化的具身场景中提供了分层标注。此外，我们开发了RoboDecision——一个与EQA-Decision基准对齐的强基线模型，为具身环境中的感知、推理及动作级决策的联合评估提供了统一框架。实验结果表明，EQA-Decision能够有效衡量并增强视觉语言模型在空间与交互推理方面的能力，为推进具身智能研究奠定了坚实基础。

🎯 研究动机

- 现有**具身问答(EQA)** 数据集和基准碎片化，各自聚焦有限推理技能（如空间理解或程序推理），缺乏统一的、大规模的全面评估框架 - 研究背景：具身智能需要连接感知、推理和交互，但当前缺乏覆盖多维度推理能力的标准化基准 - 需要构建一个系统覆盖**静态场景构建、空间理解、任务动态推理、即时决策** 四个互补维度的综合数据集和评估方法

🔧 核心方法

- 构建**EQA-Decision** 大规模数据集，包含超过400万问答对，涵盖多样化具身场景的分层注释 - 开发**RoboDecision** 基线模型，提供统一框架联合评估感知、推理和动作级决策能力 - 数据集系统覆盖四个推理维度：静态场景构建、空间理解、任务动态推理、即时决策 - 使用层次化注释体系确保数据多样性和质量

💡 核心创新

- **首创性**：首次提出覆盖**感知到决策** 全链路的统一EQA基准，而非仅关注单一推理技能 - **维度完整性**：系统整合四个互补的具身推理维度，弥补现有数据集碎片化不足 - **统一评估框架**：RoboDecision模型将视觉-语言模型(VLM)能力与动作级决策评估相结合，实现从感知到决策的端到端基准 - **大规模标注**：400万问答对的分层注释为复杂具身推理提供丰富训练和测试资源

🏆 总体贡献

- 为具身智能领域提供**大规模、多维度的统一EQA基准** （EQA-Decision），促进全面比较和标准化评估 - 通过RoboDecision基线模型，展示了VLM在空间和交互推理中的性能提升潜力 - 奠定**推进具身智能研究** 的基础，特别是从感知到决策的连贯能力评估 - 数据集和代码开源（隐含），促进社区复现和后续研究

将具身问答从感知拓展到决策
Extending Embodied Question Answering from Perception to Decision

📊 核心分析

将具身问答从感知拓展到决策 Extending Embodied Question Answering from Perception to Decision

📊 核心分析

将具身问答从感知拓展到决策
Extending Embodied Question Answering from Perception to Decision