该论文旨在解决机器人执行 孔轴装配(peg-in-hole) 任务时面临的挑战。研究背景是:虽然 强化学习(reinforcement learning) 在该任务上展现出潜力,但通常需要大量的探索,导致数据收集效率低下。
论文提出了一个新颖的 视觉-触觉(visual-tactile) 技能学习框架。其核心方法是:
- 利用 孔轴装配(PiH) 的逆任务—— 孔轴拆卸(peg-out-of-hole, PooH) 来辅助学习。
- 将PooH和PiH任务统一建模为 部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDPs),并共享 视觉-触觉(visual-tactile) 观测空间。
- 首先训练一个视觉-触觉的PooH策略,然后将其轨迹(包含运动学、视觉和触觉信息)进行 时间反转(temporally reversed) 和 动作随机化(action-randomized),以生成用于PiH任务的专家数据。
- 在策略学习中,视觉感知用于引导轴接近孔,而触觉测量则用于补偿轴孔之间的 未对准(misalignment)。
论文的核心创新点在于:
- **逆向任务利用**:创造性地提出利用更简单、数据收集效率更高的逆向拆卸任务(PooH)来辅助学习复杂的正向装配任务(PiH),这是一种新颖的 课程学习(curriculum learning) 范式。
- **跨任务知识迁移机制**:设计了将PooH策略轨迹通过 时间反转 和 动作随机化 转化为PiH专家数据的特定方法,实现了从“拆”到“装”的有效知识迁移。
- **多模态感知协同**:明确划分了视觉和触觉模态在装配任务不同阶段(接近与对准补偿)的互补作用,并构建了统一的 多模态(multimodal) 学习框架来实现这种协同。
论文对该领域的整体贡献是:
- 提出并验证了一种高效的数据驱动学习框架,通过利用逆向任务显著减少了复杂装配任务所需的探索和数据量。
- 在多种轴孔几何形状上进行的实验表明,该框架训练的 视觉-触觉(visual-tactile) 策略比单模态策略降低了6.4%的接触力,并且在已见和未见物体上分别达到了87.5%和77.1%的平均成功率,比从零开始训练的 强化学习(RL) 方法成功率高出18.1%。
- 为机器人灵巧操作领域提供了一种新的、高效的 技能学习(skill learning) 思路,即通过分解和利用任务的物理对称性(如装配与拆卸)来简化学习过程。