BrickCraft: 结合情境化手动引导的视觉运动技能组合用于长周期互锁积木组装

📝 论文摘要

自主机器人组装互锁砖块需要无缝整合长时程任务推理、空间锚定与细粒度操作。本文提出BrickCraft——一个面向长时程且可泛化的互锁砖块组装组合式框架。该框架采用相对公式化建模组装过程，每一步均以部分结构中的参考砖块为锚点，从而将复杂任务分解为有限的可复用基本技能集合。BrickCraft通过情境化操作手册弥合高层组装规划与物理执行之间的鸿沟，该手册将组装意图投射到实时机器人观测中，为学习型视觉运动技能提供明确的空间引导。最后，BrickCraft采用组合式执行流水线，将空间锚定的技能串联以完成长时程组装任务。大量实验验证表明，BrickCraft能从有限演示中习得熟练的组装技能，并对未见结构展现出强大的组合式泛化能力。项目网站见https://intelligent-control-lab.github.io/BrickCraft。

🎯 研究动机

- 长时域(long-horizon)互锁积木(interlocking brick)自主装配需要同时解决**长期任务推理(task reasoning)**、**空间定位(spatial grounding)** 和**精细操作(fine-grained manipulation)** 的集成问题 - 现有方法难以实现复杂任务的**组合性(compositionality)** 和**泛化性(generalization)**，尤其是对未见结构 - 传统装配依赖完整规划或大量演示，缺乏对可复用基元技能的有效建模与链式执行

🔧 核心方法

- 提出**相对公式(relative formulation)**，将每个装配步骤锚定到部分结构中的参考积木，将复杂任务分解为有限的可复用**基元技能(primitive skills)** - 引入**情境手册(situated manuals)**，通过将高层装配意图投影到实时机器人观测上，为学习的**视觉运动技能(visuomotor skills)** 提供显式空间指导 - 设计**组合执行流水线(compositional execution pipeline)**，通过链式调用空间接地(spatially grounded)的技能完成长时域装配任务 - 从少量演示中学习技能，利用**组合泛化(compositional generalization)** 能力适配未见结构

💡 核心创新

- **首创相对分解策略**：用参考积木锚定每个步骤，将长时域任务分解为有限可复用基元技能，显著降低复杂性 - **情境手册桥接高层与低层**：通过投影装配意图到实时观测，提供显式空间指导，弥合了高层计划与物理执行之间的鸿沟 - **强组合泛化能力**：仅需有限演示即可学习技能，并能对未见结构进行有效组合，优于传统需要大量数据的方法 - **端到端组合框架**：统一了规划、空间定位与操作，避免了模块间误差累积

🏆 总体贡献

- 为互锁积木装配领域提出了一种**组合性装配范式(compositional assembly paradigm)**，兼顾长时域推理与泛化 - 通过实验验证了从有限演示学习熟练技能并成功泛化到未见结构，展示了**数据高效性(data efficiency)** 和**强泛化性(strong generalization)** - 开源项目网站提供代码与演示，促进社区复现与后续研究 - 为机器人长时域操作任务提供了一种可迁移的**技能组合(skill composition)** 方法论

BrickCraft: 结合情境化手动引导的视觉运动技能组合用于长周期互锁积木组装
BrickCraft: Visuomotor Skill Composition with Situated Manual Guidance for Long-Horizon Interlocking Brick Assembly

📊 核心分析

BrickCraft: 结合情境化手动引导的视觉运动技能组合用于长周期互锁积木组装 BrickCraft: Visuomotor Skill Composition with Situated Manual Guidance for Long-Horizon Interlocking Brick Assembly

📊 核心分析

BrickCraft: 结合情境化手动引导的视觉运动技能组合用于长周期互锁积木组装
BrickCraft: Visuomotor Skill Composition with Situated Manual Guidance for Long-Horizon Interlocking Brick Assembly