- 现有**具身问答(EQA)** 数据集和基准碎片化,各自聚焦有限推理技能(如空间理解或程序推理),缺乏统一的、大规模的全面评估框架
- 研究背景:具身智能需要连接感知、推理和交互,但当前缺乏覆盖多维度推理能力的标准化基准
- 需要构建一个系统覆盖**静态场景构建、空间理解、任务动态推理、即时决策** 四个互补维度的综合数据集和评估方法
- 构建**EQA-Decision** 大规模数据集,包含超过400万问答对,涵盖多样化具身场景的分层注释
- 开发**RoboDecision** 基线模型,提供统一框架联合评估感知、推理和动作级决策能力
- 数据集系统覆盖四个推理维度:静态场景构建、空间理解、任务动态推理、即时决策
- 使用层次化注释体系确保数据多样性和质量
- **首创性**:首次提出覆盖**感知到决策** 全链路的统一EQA基准,而非仅关注单一推理技能
- **维度完整性**:系统整合四个互补的具身推理维度,弥补现有数据集碎片化不足
- **统一评估框架**:RoboDecision模型将视觉-语言模型(VLM)能力与动作级决策评估相结合,实现从感知到决策的端到端基准
- **大规模标注**:400万问答对的分层注释为复杂具身推理提供丰富训练和测试资源
- 为具身智能领域提供**大规模、多维度的统一EQA基准** (EQA-Decision),促进全面比较和标准化评估
- 通过RoboDecision基线模型,展示了VLM在空间和交互推理中的性能提升潜力
- 奠定**推进具身智能研究** 的基础,特别是从感知到决策的连贯能力评估
- 数据集和代码开源(隐含),促进社区复现和后续研究