该论文旨在解决双手机器人操作(bimanual robot manipulation)中的挑战:
- 问题:将语言模型(Language Models, LLMs)的上下文学习(In-Context Learning, ICL)能力应用于双手机器人操作时,高维关节动作空间和紧密的双臂协调约束会迅速超出标准上下文窗口的容量。
- 背景:语言模型已成为具身控制(embodied control)的强大推理引擎,上下文学习使现成的、纯文本的语言模型能够预测机器人动作,无需任务特定训练,同时保持泛化能力。
论文提出了BiCICLe(Bimanual Coordinated In-Context Learning)框架:
- 将双手机器人控制建模为一个多智能体(multi-agent)领导者-跟随者(leader-follower)问题,将动作空间解耦为顺序的、条件化的单臂预测。
- 自然地扩展为“双臂辩论(Arms' Debate)”,这是一个迭代精炼过程。
- 引入了第三个语言模型作为“法官(LLM-as-Judge)”来评估和选择最合理的协调轨迹。
- 该框架使标准语言模型能够执行少样本(few-shot)双手机器人操作,无需微调(fine-tuning)。
论文的核心创新点在于:
- **首创性框架**:提出了首个使标准语言模型能够执行少样本双手机器人操作而无需微调的框架(BiCICLe)。
- **问题重构**:创新地将双手机器人控制重新定义为多智能体领导者-跟随者问题,有效解耦了高维动作空间。
- **辩论与裁决机制**:引入了“双臂辩论”的迭代精炼过程和“语言模型作为法官”的评估选择机制,以提升协调轨迹的合理性。
- **训练自由与泛化**:与现有需要大量训练或微调的方法相比,该方法保持了训练自由(training-free)的特性,同时实现了强大的少样本泛化能力。
论文对该领域的整体贡献是:
- **方法论贡献**:为将语言模型的上下文学习能力应用于复杂的双手机器人操作任务提供了一种新颖且有效的范式。
- **性能突破**:在TWIN基准测试的13个任务上,实现了高达71.1%的平均成功率,比最佳的无训练基线提高了6.7个百分点,并超越了大多数监督学习方法。
- **泛化验证**:进一步展示了在新任务上强大的少样本泛化能力,证明了方法的鲁棒性和普适性。
- **启发性方向**:其多智能体交互和迭代精炼的思想为后续研究将大语言模型(Large Language Models)应用于更复杂的机器人协调任务开辟了新方向。