视觉触觉孔内插拔学习：从孔外拆卸到孔内装配

📝 论文摘要

插孔装配是一项基础但具有挑战性的机器人操作任务。尽管强化学习在解决此类任务上展现出潜力，但其需要大量的探索过程。本文提出了一种新颖的视觉-触觉技能学习框架，通过利用插孔装配的逆向任务——即拔孔拆卸——来促进插孔装配的学习。与插孔装配相比，拔孔拆卸本质上更为简单，因为它仅需克服现有摩擦力而无需精确对准，从而使得数据收集更为高效。为此，我们将拔孔拆卸与插孔装配统一建模为具有共享视觉-触觉观测空间的部分可观测马尔可夫决策过程。首先训练一个视觉-触觉拔孔拆卸策略；该策略生成的包含运动学、视觉与触觉信息的轨迹经过时序反转和动作随机化处理后，可作为插孔装配的专家数据。在策略学习过程中，视觉感知辅助插杆与孔洞的接近操作，而触觉测量则补偿插杆与孔洞的对准偏差。在不同几何形状的插孔实验中，视觉-触觉策略实现了比单模态策略低6.4%的接触力，且该框架在已知物体上达到87.5%的平均成功率，在未知物体上达到77.1%的平均成功率，相较从零开始训练插孔装配策略的直接强化学习方法成功率提升18.1%。演示视频、代码与数据集详见https://sites.google.com/view/pooh2pih。

🎯 研究动机

该论文旨在解决机器人执行孔轴装配(peg-in-hole) 任务时面临的挑战。研究背景是：虽然强化学习(reinforcement learning) 在该任务上展现出潜力，但通常需要大量的探索，导致数据收集效率低下。

🔧 核心方法

论文提出了一个新颖的视觉-触觉(visual-tactile) 技能学习框架。其核心方法是： - 利用孔轴装配(PiH) 的逆任务—— 孔轴拆卸(peg-out-of-hole, PooH) 来辅助学习。 - 将PooH和PiH任务统一建模为部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDPs)，并共享视觉-触觉(visual-tactile) 观测空间。 - 首先训练一个视觉-触觉的PooH策略，然后将其轨迹（包含运动学、视觉和触觉信息）进行时间反转(temporally reversed) 和动作随机化(action-randomized)，以生成用于PiH任务的专家数据。 - 在策略学习中，视觉感知用于引导轴接近孔，而触觉测量则用于补偿轴孔之间的未对准(misalignment)。

💡 核心创新

论文的核心创新点在于： - **逆向任务利用**：创造性地提出利用更简单、数据收集效率更高的逆向拆卸任务（PooH）来辅助学习复杂的正向装配任务（PiH），这是一种新颖的课程学习(curriculum learning) 范式。 - **跨任务知识迁移机制**：设计了将PooH策略轨迹通过时间反转和动作随机化转化为PiH专家数据的特定方法，实现了从“拆”到“装”的有效知识迁移。 - **多模态感知协同**：明确划分了视觉和触觉模态在装配任务不同阶段（接近与对准补偿）的互补作用，并构建了统一的多模态(multimodal) 学习框架来实现这种协同。

🏆 总体贡献

论文对该领域的整体贡献是： - 提出并验证了一种高效的数据驱动学习框架，通过利用逆向任务显著减少了复杂装配任务所需的探索和数据量。 - 在多种轴孔几何形状上进行的实验表明，该框架训练的视觉-触觉(visual-tactile) 策略比单模态策略降低了6.4%的接触力，并且在已见和未见物体上分别达到了87.5%和77.1%的平均成功率，比从零开始训练的强化学习(RL) 方法成功率高出18.1%。 - 为机器人灵巧操作领域提供了一种新的、高效的技能学习(skill learning) 思路，即通过分解和利用任务的物理对称性（如装配与拆卸）来简化学习过程。

视觉触觉孔内插拔学习：从孔外拆卸到孔内装配
Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly

📊 核心分析

视觉触觉孔内插拔学习：从孔外拆卸到孔内装配 Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly

📊 核心分析

视觉触觉孔内插拔学习：从孔外拆卸到孔内装配
Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly