- 现有**具身智能(Embodied AI)** 研究主要依赖用户显式指令完成任务,但机器人融入人类社会需要理解社会规范中哪些行为允许或禁止,即使没有指令
- 当前缺乏评估模型是否能在无用户指导的情况下主动遵守社会规范的基准和数据集
- 研究背景:机器人需要从**被动智能(passive intelligence)** (用户引导)向**主动智能(active intelligence)** (无引导)过渡,以实现社会合规行为
- 构建**RobotEQ-Data** 数据集,包含1,900张**第一人称图像(egocentric images)**,覆盖10个具身类别和56个子类别,通过手工标注生成5,353个**动作判断问题(action judgment questions)** 和1,286个**空间基础问题(spatial grounding questions)**
- 建立**RobotEQ-Bench** 基准,用于评估现有最先进模型在主动智能任务上的表现,包括动作判断和空间基础能力
- 利用**检索增强生成(Retrieval-Augmented Generation, RAG)** 技术引入外部社会规范知识库,增强模型对社会规范的理解
- **首创主动智能基准**:首次提出针对无用户指令情况下机器人社会规范理解的基准**RobotEQ**,填补了从被动指令执行到主动社会合规过渡的评估空白
- **多维度标注**:同时包含动作判断和空间基础两类问题,全面衡量模型对“允许/禁止”行为以及空间关系中的社会规范理解
- **RAG增强方法**:发现结合外部社会知识库可提升模型在主动智能任务上的表现,为提升机器人社会认知提供了新思路
- 为**具身智能(Embodied AI)** 领域提供了首个系统性评估主动社会合规能力的基准和数据集,推动研究从被动操作走向主动智能
- 通过实验揭示现有模型在**空间基础(spatial grounding)** 等任务上的不足,明确了当前技术瓶颈
- 展示了**检索增强生成(RAG)** 技术融入外部社会规范知识库的有效性,为后续提升机器人社会智能提供了可借鉴的方法