RoboWits：机器人创造性问题解决面临的意外挑战

📝 论文摘要

在意外挑战下进行推理、适应和创造性解决问题的能力，对于在真实环境中运行的机器人至关重要。然而，当前的机器人基准测试主要强调技能层面的执行，对此类认知推理能力的洞察有限。我们提出RoboWits，这是一个双臂机器人基准测试，旨在系统评估认知推理、创造性工具使用以及对意外条件的鲁棒性。为了实现可扩展的高质量以推理为中心的意外场景构建，我们提出了一种自动化任务生成流水线，该流水线被设计为多智能体协作框架，包含种子任务生成与验证、指标生成、场景生成及任务变异等智能体。利用该流水线，我们整理了30个多样化的种子任务和208个具有变异及按几何、材料和装配推理分级的难度任务。我们对流行的机器人策略、预训练视觉语言动作模型（VLA）和基于状态的标准规划器进行了基准测试。结果揭示了显著的性能差距：尽管预训练VLA在单任务微调后能在种子任务上取得初步成功，但在变异任务上表现不佳，这暗示了它们在需要推理、策略适应以及对欺骗性或受限环境具有鲁棒性的操作任务中的脆弱性。项目页面见 https://umass-embodied-agi.github.io/RoboWits。

🎯 研究动机

- 现有机器人基准主要强调**技能级执行(skill-level execution)**，缺乏对**认知推理(cognitive reasoning)** 能力（如适应性和创造性问题解决）的评估 - 机器人在真实环境中需要应对**意外挑战(unexpected challenges)**，但当前缺少系统化的测试基准 - 研究背景：机器人需要具备推理、适应和创造性解决问题的能力，但现有方法在**认知推理(cognitive reasoning)** 方面的评估不足

🔧 核心方法

- 提出**RoboWits**，一个**双手机器人(bi-manual robotic)** 基准，用于评估认知推理、创造性工具使用和对意外条件的鲁棒性 - 设计**自动任务生成流水线(automated task generation pipeline)**，基于**多智能体协作框架(multi-agent cooperative framework)**，包含种子任务生成与验证、度量生成、场景生成和任务突变四个智能体 - 构建了30个**种子任务(seed tasks)** 和208个**突变任务(mutated tasks)**，涵盖几何、材料和装配推理，难度分级

💡 核心创新

- **首创性**：首次系统性地构建专注于**意外条件下的创造性问题解决(unexpected creative problem solving)** 的机器人基准 - **自动化生成**：提出多智能体协作流水线，能够**低成本、可扩展地生成推理中心的高质量任务**，包含任务突变机制 - **揭示脆弱性**：实验发现预训练**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在种子任务上初步成功，但在突变任务上表现**脆弱(brittle)**，暴露其缺乏策略适应和鲁棒性

🏆 总体贡献

- 为机器人**认知推理(cognitive reasoning)** 评估提供了专用基准（RoboWits），填补了现有技能级基准的空白 - 证明了预训练VLA和现有机器人在处理**意外约束和欺骗性环境** 时的性能差距，推动更具鲁棒性的策略研究 - 开源任务生成流水线和数据集，促进社区在**创意问题解决(creative problem solving)** 方向的可复现研究

RoboWits：机器人创造性问题解决面临的意外挑战
RoboWits: Unexpected Challenges for Robotic Creative Problem Solving

📊 核心分析

RoboWits：机器人创造性问题解决面临的意外挑战 RoboWits: Unexpected Challenges for Robotic Creative Problem Solving

📊 核心分析

RoboWits：机器人创造性问题解决面临的意外挑战
RoboWits: Unexpected Challenges for Robotic Creative Problem Solving