← 返回论文列表

RobotEQ:具身人工智能中从被动智能到主动智能的转变
RobotEQ: Transitioning from Passive Intelligence to Active Intelligence in Embodied AI

作者: Kuofei Fang, Xinyi Che, Haomin Ouyang 等15人
arXiv: 2605.06234v1
分类: cs.RO, cs.HC
📝 论文摘要
具身人工智能是学术界和工业界共同关注的重要研究课题。当前研究主要聚焦于根据明确的用户指令完成任务。然而,要使机器人真正融入人类社会,它们必须理解哪些行为是允许的、哪些是禁止的——即便没有明确的指令。我们将受用户引导的AI称为被动智能,将无需引导的AI称为主动智能。本文提出RobotEQ——首个面向主动智能的基准测试,旨在评估现有模型能否在具身场景中理解并遵守社会规范。首先,我们构建了RobotEQ-Data数据集,包含1,900张第一人称视角图像,覆盖10个代表性具身类别和56个子类别。通过大量人工标注,我们提供了5,353个行为判断问题和1,286个空间定位问题,为不同场景下的机器人行为指定了适当方案。在此基础上,我们建立了RobotEQ-Bench,用于评估现有最先进模型在该任务上的表现。实验结果表明,当前模型在实现可靠的主动智能方面仍有不足,尤其是在空间定位任务中。与此同时,我们观察到利用检索增强生成(RAG)技术引入外部社会规范知识库通常能提升性能。本研究可推动机器人从用户引导的被动操作向主动社会合规性转变。

📊 核心分析

🎯 研究动机
- 现有**具身智能(Embodied AI)** 研究主要依赖用户显式指令完成任务,但机器人融入人类社会需要理解社会规范中哪些行为允许或禁止,即使没有指令 - 当前缺乏评估模型是否能在无用户指导的情况下主动遵守社会规范的基准和数据集 - 研究背景:机器人需要从**被动智能(passive intelligence)** (用户引导)向**主动智能(active intelligence)** (无引导)过渡,以实现社会合规行为
🔧 核心方法
- 构建**RobotEQ-Data** 数据集,包含1,900张**第一人称图像(egocentric images)**,覆盖10个具身类别和56个子类别,通过手工标注生成5,353个**动作判断问题(action judgment questions)** 和1,286个**空间基础问题(spatial grounding questions)** - 建立**RobotEQ-Bench** 基准,用于评估现有最先进模型在主动智能任务上的表现,包括动作判断和空间基础能力 - 利用**检索增强生成(Retrieval-Augmented Generation, RAG)** 技术引入外部社会规范知识库,增强模型对社会规范的理解
💡 核心创新
- **首创主动智能基准**:首次提出针对无用户指令情况下机器人社会规范理解的基准**RobotEQ**,填补了从被动指令执行到主动社会合规过渡的评估空白 - **多维度标注**:同时包含动作判断和空间基础两类问题,全面衡量模型对“允许/禁止”行为以及空间关系中的社会规范理解 - **RAG增强方法**:发现结合外部社会知识库可提升模型在主动智能任务上的表现,为提升机器人社会认知提供了新思路
🏆 总体贡献
- 为**具身智能(Embodied AI)** 领域提供了首个系统性评估主动社会合规能力的基准和数据集,推动研究从被动操作走向主动智能 - 通过实验揭示现有模型在**空间基础(spatial grounding)** 等任务上的不足,明确了当前技术瓶颈 - 展示了**检索增强生成(RAG)** 技术融入外部社会规范知识库的有效性,为后续提升机器人社会智能提供了可借鉴的方法