← 返回论文列表

BrickCraft: 结合情境化手动引导的视觉运动技能组合用于长周期互锁积木组装
BrickCraft: Visuomotor Skill Composition with Situated Manual Guidance for Long-Horizon Interlocking Brick Assembly

作者: Jichuan Yu, Bowei Li, Zhenran Tang 等7人
arXiv: 2605.07605v1
分类: cs.RO
📝 论文摘要
自主机器人组装互锁砖块需要无缝整合长时程任务推理、空间锚定与细粒度操作。本文提出BrickCraft——一个面向长时程且可泛化的互锁砖块组装组合式框架。该框架采用相对公式化建模组装过程,每一步均以部分结构中的参考砖块为锚点,从而将复杂任务分解为有限的可复用基本技能集合。BrickCraft通过情境化操作手册弥合高层组装规划与物理执行之间的鸿沟,该手册将组装意图投射到实时机器人观测中,为学习型视觉运动技能提供明确的空间引导。最后,BrickCraft采用组合式执行流水线,将空间锚定的技能串联以完成长时程组装任务。大量实验验证表明,BrickCraft能从有限演示中习得熟练的组装技能,并对未见结构展现出强大的组合式泛化能力。项目网站见https://intelligent-control-lab.github.io/BrickCraft。

📊 核心分析

🎯 研究动机
- 长时域(long-horizon)互锁积木(interlocking brick)自主装配需要同时解决**长期任务推理(task reasoning)**、**空间定位(spatial grounding)** 和**精细操作(fine-grained manipulation)** 的集成问题 - 现有方法难以实现复杂任务的**组合性(compositionality)** 和**泛化性(generalization)**,尤其是对未见结构 - 传统装配依赖完整规划或大量演示,缺乏对可复用基元技能的有效建模与链式执行
🔧 核心方法
- 提出**相对公式(relative formulation)**,将每个装配步骤锚定到部分结构中的参考积木,将复杂任务分解为有限的可复用**基元技能(primitive skills)** - 引入**情境手册(situated manuals)**,通过将高层装配意图投影到实时机器人观测上,为学习的**视觉运动技能(visuomotor skills)** 提供显式空间指导 - 设计**组合执行流水线(compositional execution pipeline)**,通过链式调用空间接地(spatially grounded)的技能完成长时域装配任务 - 从少量演示中学习技能,利用**组合泛化(compositional generalization)** 能力适配未见结构
💡 核心创新
- **首创相对分解策略**:用参考积木锚定每个步骤,将长时域任务分解为有限可复用基元技能,显著降低复杂性 - **情境手册桥接高层与低层**:通过投影装配意图到实时观测,提供显式空间指导,弥合了高层计划与物理执行之间的鸿沟 - **强组合泛化能力**:仅需有限演示即可学习技能,并能对未见结构进行有效组合,优于传统需要大量数据的方法 - **端到端组合框架**:统一了规划、空间定位与操作,避免了模块间误差累积
🏆 总体贡献
- 为互锁积木装配领域提出了一种**组合性装配范式(compositional assembly paradigm)**,兼顾长时域推理与泛化 - 通过实验验证了从有限演示学习熟练技能并成功泛化到未见结构,展示了**数据高效性(data efficiency)** 和**强泛化性(strong generalization)** - 开源项目网站提供代码与演示,促进社区复现与后续研究 - 为机器人长时域操作任务提供了一种可迁移的**技能组合(skill composition)** 方法论