- 现有机器人基准主要强调**技能级执行(skill-level execution)**,缺乏对**认知推理(cognitive reasoning)** 能力(如适应性和创造性问题解决)的评估
- 机器人在真实环境中需要应对**意外挑战(unexpected challenges)**,但当前缺少系统化的测试基准
- 研究背景:机器人需要具备推理、适应和创造性解决问题的能力,但现有方法在**认知推理(cognitive reasoning)** 方面的评估不足
- 提出**RoboWits**,一个**双手机器人(bi-manual robotic)** 基准,用于评估认知推理、创造性工具使用和对意外条件的鲁棒性
- 设计**自动任务生成流水线(automated task generation pipeline)**,基于**多智能体协作框架(multi-agent cooperative framework)**,包含种子任务生成与验证、度量生成、场景生成和任务突变四个智能体
- 构建了30个**种子任务(seed tasks)** 和208个**突变任务(mutated tasks)**,涵盖几何、材料和装配推理,难度分级
- **首创性**:首次系统性地构建专注于**意外条件下的创造性问题解决(unexpected creative problem solving)** 的机器人基准
- **自动化生成**:提出多智能体协作流水线,能够**低成本、可扩展地生成推理中心的高质量任务**,包含任务突变机制
- **揭示脆弱性**:实验发现预训练**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在种子任务上初步成功,但在突变任务上表现**脆弱(brittle)**,暴露其缺乏策略适应和鲁棒性
- 为机器人**认知推理(cognitive reasoning)** 评估提供了专用基准(RoboWits),填补了现有技能级基准的空白
- 证明了预训练VLA和现有机器人在处理**意外约束和欺骗性环境** 时的性能差距,推动更具鲁棒性的策略研究
- 开源任务生成流水线和数据集,促进社区在**创意问题解决(creative problem solving)** 方向的可复现研究