← 返回论文列表

将具身问答从感知拓展到决策
Extending Embodied Question Answering from Perception to Decision

作者: Xicheng Gong, Qiwei Li, Peiran Xu 等4人
arXiv: 2605.25813v1
分类: cs.RO
📝 论文摘要
具身问答(Embodied Question Answering, EQA)将感知、推理和交互整合于具身环境之中。然而,现有数据集和基准仍较为碎片化,各自聚焦于空间理解或程序推理等有限的推理技能子集,缺乏用于综合评估的统一大规模框架。为此,我们提出EQA-Decision——一个大规模具身问答数据集,系统性地覆盖了具身推理的四个互补维度:静态场景构建、空间理解、任务动态推理与即时决策。该数据集包含超过四百万个问答对,并在多样化的具身场景中提供了分层标注。此外,我们开发了RoboDecision——一个与EQA-Decision基准对齐的强基线模型,为具身环境中的感知、推理及动作级决策的联合评估提供了统一框架。实验结果表明,EQA-Decision能够有效衡量并增强视觉语言模型在空间与交互推理方面的能力,为推进具身智能研究奠定了坚实基础。

📊 核心分析

🎯 研究动机
- 现有**具身问答(EQA)** 数据集和基准碎片化,各自聚焦有限推理技能(如空间理解或程序推理),缺乏统一的、大规模的全面评估框架 - 研究背景:具身智能需要连接感知、推理和交互,但当前缺乏覆盖多维度推理能力的标准化基准 - 需要构建一个系统覆盖**静态场景构建、空间理解、任务动态推理、即时决策** 四个互补维度的综合数据集和评估方法
🔧 核心方法
- 构建**EQA-Decision** 大规模数据集,包含超过400万问答对,涵盖多样化具身场景的分层注释 - 开发**RoboDecision** 基线模型,提供统一框架联合评估感知、推理和动作级决策能力 - 数据集系统覆盖四个推理维度:静态场景构建、空间理解、任务动态推理、即时决策 - 使用层次化注释体系确保数据多样性和质量
💡 核心创新
- **首创性**:首次提出覆盖**感知到决策** 全链路的统一EQA基准,而非仅关注单一推理技能 - **维度完整性**:系统整合四个互补的具身推理维度,弥补现有数据集碎片化不足 - **统一评估框架**:RoboDecision模型将视觉-语言模型(VLM)能力与动作级决策评估相结合,实现从感知到决策的端到端基准 - **大规模标注**:400万问答对的分层注释为复杂具身推理提供丰富训练和测试资源
🏆 总体贡献
- 为具身智能领域提供**大规模、多维度的统一EQA基准** (EQA-Decision),促进全面比较和标准化评估 - 通过RoboDecision基线模型,展示了VLM在空间和交互推理中的性能提升潜力 - 奠定**推进具身智能研究** 的基础,特别是从感知到决策的连贯能力评估 - 数据集和代码开源(隐含),促进社区复现和后续研究