← 返回论文列表

视觉触觉孔内插拔学习:从孔外拆卸到孔内装配
Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly

作者: Yongqiang Zhao, Xuyang Zhang, Zhuo Chen 等6人
arXiv: 2604.20712v1
分类: cs.RO
📝 论文摘要
插孔装配是一项基础但具有挑战性的机器人操作任务。尽管强化学习在解决此类任务上展现出潜力,但其需要大量的探索过程。本文提出了一种新颖的视觉-触觉技能学习框架,通过利用插孔装配的逆向任务——即拔孔拆卸——来促进插孔装配的学习。与插孔装配相比,拔孔拆卸本质上更为简单,因为它仅需克服现有摩擦力而无需精确对准,从而使得数据收集更为高效。为此,我们将拔孔拆卸与插孔装配统一建模为具有共享视觉-触觉观测空间的部分可观测马尔可夫决策过程。首先训练一个视觉-触觉拔孔拆卸策略;该策略生成的包含运动学、视觉与触觉信息的轨迹经过时序反转和动作随机化处理后,可作为插孔装配的专家数据。在策略学习过程中,视觉感知辅助插杆与孔洞的接近操作,而触觉测量则补偿插杆与孔洞的对准偏差。在不同几何形状的插孔实验中,视觉-触觉策略实现了比单模态策略低6.4%的接触力,且该框架在已知物体上达到87.5%的平均成功率,在未知物体上达到77.1%的平均成功率,相较从零开始训练插孔装配策略的直接强化学习方法成功率提升18.1%。演示视频、代码与数据集详见https://sites.google.com/view/pooh2pih。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人执行 孔轴装配(peg-in-hole) 任务时面临的挑战。研究背景是:虽然 强化学习(reinforcement learning) 在该任务上展现出潜力,但通常需要大量的探索,导致数据收集效率低下。
🔧 核心方法
论文提出了一个新颖的 视觉-触觉(visual-tactile) 技能学习框架。其核心方法是: - 利用 孔轴装配(PiH) 的逆任务—— 孔轴拆卸(peg-out-of-hole, PooH) 来辅助学习。 - 将PooH和PiH任务统一建模为 部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDPs),并共享 视觉-触觉(visual-tactile) 观测空间。 - 首先训练一个视觉-触觉的PooH策略,然后将其轨迹(包含运动学、视觉和触觉信息)进行 时间反转(temporally reversed) 和 动作随机化(action-randomized),以生成用于PiH任务的专家数据。 - 在策略学习中,视觉感知用于引导轴接近孔,而触觉测量则用于补偿轴孔之间的 未对准(misalignment)。
💡 核心创新
论文的核心创新点在于: - **逆向任务利用**:创造性地提出利用更简单、数据收集效率更高的逆向拆卸任务(PooH)来辅助学习复杂的正向装配任务(PiH),这是一种新颖的 课程学习(curriculum learning) 范式。 - **跨任务知识迁移机制**:设计了将PooH策略轨迹通过 时间反转 和 动作随机化 转化为PiH专家数据的特定方法,实现了从“拆”到“装”的有效知识迁移。 - **多模态感知协同**:明确划分了视觉和触觉模态在装配任务不同阶段(接近与对准补偿)的互补作用,并构建了统一的 多模态(multimodal) 学习框架来实现这种协同。
🏆 总体贡献
论文对该领域的整体贡献是: - 提出并验证了一种高效的数据驱动学习框架,通过利用逆向任务显著减少了复杂装配任务所需的探索和数据量。 - 在多种轴孔几何形状上进行的实验表明,该框架训练的 视觉-触觉(visual-tactile) 策略比单模态策略降低了6.4%的接触力,并且在已见和未见物体上分别达到了87.5%和77.1%的平均成功率,比从零开始训练的 强化学习(RL) 方法成功率高出18.1%。 - 为机器人灵巧操作领域提供了一种新的、高效的 技能学习(skill learning) 思路,即通过分解和利用任务的物理对称性(如装配与拆卸)来简化学习过程。