从人类遥操作数据学习基于仿真的双手绳索操作策略

📝 论文摘要

可变形线性物体（DLO），如绳索和线缆，在家庭和工业应用中广泛存在，但由于其无限维的构型空间及频繁的自遮挡，操作起来仍具挑战性。通过遥操作的模仿学习为实现双臂DLO操作提供了一条实用路径，但其可扩展性受限于人力成本，这使得观测空间的选择对于从小规模数据中实现泛化至关重要。在本研究中，我们探讨了在解结任务中，自我中心视觉策略缺乏泛化能力是否源于观测空间本身，而非策略架构或数据规模。我们比较了基于相同双臂遥操作数据训练的两种基于Transformer的动作分块策略：一种是以腕戴相机两个自我中心RGB流为条件的视觉策略，另一种是以DLO的三维粒子状态为条件的基于状态的策略，该状态通过多视图融合从初始观测中提取，并在基于粒子的扩展位置动力学模拟中演化。在未见过的绳索构型上进行开环评估时，基于状态的策略在预测初始抓取-拉动动作时的L1误差比视觉策略低30.8%，量化了像素与物理一致状态之间的可观测性差距，为从有限的人类示范中实现更高效的数据驱动的DLO操作机器人学习指明了方向。

🎯 研究动机

- 可变形线性物体(Deformable Linear Objects, DLOs)如绳索和电缆在家庭和工业中广泛存在，但由于其**无限维配置空间(infinite-dimensional configuration space)** 和频繁的**自遮挡(self-occlusion)**，操作极具挑战性 - 基于遥操作的**模仿学习(imitation learning)** 是双手DLO操作的有效路径，但人力成本限制了其可扩展性，因此**观测空间(observation space)** 的选择对从小样本数据集泛化至关重要 - 现有**自我中心视觉策略(egocentric visual policies)** 在解结任务中泛化能力不足，研究旨在探究该问题根源是否在于观测空间本身，而非策略架构或数据规模

🔧 核心方法

- 比较两种基于**Action Chunking with Transformers (ACT)** 的策略，均使用相同的双手遥操作数据训练 - **基于视觉的策略**：以两个腕部相机提供的**自我中心RGB流(egocentric RGB streams)** 为条件 - **基于状态的策略**：以DLO的**3D粒子状态(3D particle state)** 为条件，该状态通过**多视点融合(multi-view fusion)** 从初始观测中提取，并在**基于粒子的扩展位置动力学模拟(particle-based eXtended Position-Based Dynamics simulation)** 中演化

💡 核心创新

- **揭示可观测性差距(observability gap)**：首次量化了**像素观测(pixels)** 与**物理一致状态(physics-consistent state)** 之间的可观测性差异 - **性能量化对比**：在预测初始抓握-拉拽动作时，基于状态的策略相比视觉策略实现了**30.8%的L1误差降低**，明确证明了状态表示的优越性 - **数据效率导向**：指出通过使用**物理状态(physics state)** 而非原始像素，可以从小样本人类演示中实现更**数据高效(data-efficient)** 的机器人学习

🏆 总体贡献

- **验证假设**：证明了双手DLO操作中视觉策略泛化能力不足的主要原因是观测空间本身，而非策略架构或数据规模 - **提供新范式**：提出基于物理粒子状态的条件策略，为**可变形操作(deformable manipulation)** 任务提供了一种更可泛化的替代方案 - **指导未来研究**：量化了从**像素到状态(pixels-to-state)** 的收益，推动领域关注**观测空间设计(observation space design)** 以实现低资源下的高效机器人学习

从人类遥操作数据学习基于仿真的双手绳索操作策略
Learning Sim-Grounded Policies for Bimanual Rope Manipulation from Human Teleoperation Data

📊 核心分析

从人类遥操作数据学习基于仿真的双手绳索操作策略 Learning Sim-Grounded Policies for Bimanual Rope Manipulation from Human Teleoperation Data

📊 核心分析

从人类遥操作数据学习基于仿真的双手绳索操作策略
Learning Sim-Grounded Policies for Bimanual Rope Manipulation from Human Teleoperation Data