- 可变形线性物体(Deformable Linear Objects, DLOs)如绳索和电缆在家庭和工业中广泛存在,但由于其**无限维配置空间(infinite-dimensional configuration space)** 和频繁的**自遮挡(self-occlusion)**,操作极具挑战性
- 基于遥操作的**模仿学习(imitation learning)** 是双手DLO操作的有效路径,但人力成本限制了其可扩展性,因此**观测空间(observation space)** 的选择对从小样本数据集泛化至关重要
- 现有**自我中心视觉策略(egocentric visual policies)** 在解结任务中泛化能力不足,研究旨在探究该问题根源是否在于观测空间本身,而非策略架构或数据规模
- 比较两种基于**Action Chunking with Transformers (ACT)** 的策略,均使用相同的双手遥操作数据训练
- **基于视觉的策略**:以两个腕部相机提供的**自我中心RGB流(egocentric RGB streams)** 为条件
- **基于状态的策略**:以DLO的**3D粒子状态(3D particle state)** 为条件,该状态通过**多视点融合(multi-view fusion)** 从初始观测中提取,并在**基于粒子的扩展位置动力学模拟(particle-based eXtended Position-Based Dynamics simulation)** 中演化
- **揭示可观测性差距(observability gap)**:首次量化了**像素观测(pixels)** 与**物理一致状态(physics-consistent state)** 之间的可观测性差异
- **性能量化对比**:在预测初始抓握-拉拽动作时,基于状态的策略相比视觉策略实现了**30.8%的L1误差降低**,明确证明了状态表示的优越性
- **数据效率导向**:指出通过使用**物理状态(physics state)** 而非原始像素,可以从小样本人类演示中实现更**数据高效(data-efficient)** 的机器人学习
- **验证假设**:证明了双手DLO操作中视觉策略泛化能力不足的主要原因是观测空间本身,而非策略架构或数据规模
- **提供新范式**:提出基于物理粒子状态的条件策略,为**可变形操作(deformable manipulation)** 任务提供了一种更可泛化的替代方案
- **指导未来研究**:量化了从**像素到状态(pixels-to-state)** 的收益,推动领域关注**观测空间设计(observation space design)** 以实现低资源下的高效机器人学习