← 返回论文列表

从人类遥操作数据学习基于仿真的双手绳索操作策略
Learning Sim-Grounded Policies for Bimanual Rope Manipulation from Human Teleoperation Data

作者: Gina Wigginghaus, Tim Missal, Berk Guler 等5人
arXiv: 2605.16043v1
分类: cs.RO, cs.AI
📝 论文摘要
可变形线性物体(DLO),如绳索和线缆,在家庭和工业应用中广泛存在,但由于其无限维的构型空间及频繁的自遮挡,操作起来仍具挑战性。通过遥操作的模仿学习为实现双臂DLO操作提供了一条实用路径,但其可扩展性受限于人力成本,这使得观测空间的选择对于从小规模数据中实现泛化至关重要。在本研究中,我们探讨了在解结任务中,自我中心视觉策略缺乏泛化能力是否源于观测空间本身,而非策略架构或数据规模。我们比较了基于相同双臂遥操作数据训练的两种基于Transformer的动作分块策略:一种是以腕戴相机两个自我中心RGB流为条件的视觉策略,另一种是以DLO的三维粒子状态为条件的基于状态的策略,该状态通过多视图融合从初始观测中提取,并在基于粒子的扩展位置动力学模拟中演化。在未见过的绳索构型上进行开环评估时,基于状态的策略在预测初始抓取-拉动动作时的L1误差比视觉策略低30.8%,量化了像素与物理一致状态之间的可观测性差距,为从有限的人类示范中实现更高效的数据驱动的DLO操作机器人学习指明了方向。

📊 核心分析

🎯 研究动机
- 可变形线性物体(Deformable Linear Objects, DLOs)如绳索和电缆在家庭和工业中广泛存在,但由于其**无限维配置空间(infinite-dimensional configuration space)** 和频繁的**自遮挡(self-occlusion)**,操作极具挑战性 - 基于遥操作的**模仿学习(imitation learning)** 是双手DLO操作的有效路径,但人力成本限制了其可扩展性,因此**观测空间(observation space)** 的选择对从小样本数据集泛化至关重要 - 现有**自我中心视觉策略(egocentric visual policies)** 在解结任务中泛化能力不足,研究旨在探究该问题根源是否在于观测空间本身,而非策略架构或数据规模
🔧 核心方法
- 比较两种基于**Action Chunking with Transformers (ACT)** 的策略,均使用相同的双手遥操作数据训练 - **基于视觉的策略**:以两个腕部相机提供的**自我中心RGB流(egocentric RGB streams)** 为条件 - **基于状态的策略**:以DLO的**3D粒子状态(3D particle state)** 为条件,该状态通过**多视点融合(multi-view fusion)** 从初始观测中提取,并在**基于粒子的扩展位置动力学模拟(particle-based eXtended Position-Based Dynamics simulation)** 中演化
💡 核心创新
- **揭示可观测性差距(observability gap)**:首次量化了**像素观测(pixels)** 与**物理一致状态(physics-consistent state)** 之间的可观测性差异 - **性能量化对比**:在预测初始抓握-拉拽动作时,基于状态的策略相比视觉策略实现了**30.8%的L1误差降低**,明确证明了状态表示的优越性 - **数据效率导向**:指出通过使用**物理状态(physics state)** 而非原始像素,可以从小样本人类演示中实现更**数据高效(data-efficient)** 的机器人学习
🏆 总体贡献
- **验证假设**:证明了双手DLO操作中视觉策略泛化能力不足的主要原因是观测空间本身,而非策略架构或数据规模 - **提供新范式**:提出基于物理粒子状态的条件策略,为**可变形操作(deformable manipulation)** 任务提供了一种更可泛化的替代方案 - **指导未来研究**:量化了从**像素到状态(pixels-to-state)** 的收益,推动领域关注**观测空间设计(observation space design)** 以实现低资源下的高效机器人学习