面向密集接触机器人操作的多分辨率触觉模仿学习

📝 论文摘要

触觉感知对于解决多种操作任务非常有益。尽管存在多种具有不同特性的触觉传感器，但利用多个异质触觉传感器的融合来改进操作学习仍未被充分探索。我们提出了多分辨率触觉感知框架（Multi-Resolution Tactile Sensing, MiTaS），该表示框架利用多个以不同时间分辨率运行的触觉传感器，以解决复杂的接触密集型操作任务。我们提出了一种新颖的架构，使用模态特定的卷积茎和基于Transformer的融合方法，有效融合来自RGB摄像头流、基于视觉的GelSight Mini传感器以及基于高频事件的Evetac传感器的信息。这种多传感器表示随后为用于解决下游任务的流匹配策略提供条件。在五个接触密集型操作任务上的实验结果证明了多分辨率触觉特征在模仿学习中的有效性。MiTaS实现了80%的平均成功率，而仅依赖视觉（31%）和视觉-触觉（54%）的基线方法无法可靠地完成任务。使用多触觉数据共同训练视觉-触觉模型，在策略评估过程中无需访问Evetac传感器的情况下，可将某些任务的性能提升超过10%。详细的传感器读数与注意力分析揭示了不同传感器在任务执行过程中的重要性，验证了我们的多分辨率触觉感知方法。项目页面：http://mitas-touch.github.io。

🎯 研究动机

- 触觉感知(touch sensing)对解决多种操作任务有益，但利用多个**异质触觉传感器(heterogeneous tactile sensors)** 的融合来改进操作学习仍未被充分探索 - 现有方法大多依赖单一触觉传感器或视觉-触觉组合，未能充分利用不同时间分辨率(temporal resolution)传感器的互补优势 - 研究背景：复杂接触密集型任务(contact-rich manipulation tasks)需要高保真且多尺度的触觉信息，但如何有效融合多分辨率触觉信号是一个挑战

🔧 核心方法

- 提出**多分辨率触觉感知(Multi-Resolution Tactile Sensing, MiTaS)** 表示框架，整合多个不同时间分辨率的触觉传感器 - 架构使用**模态特定的卷积主干(modality-specific convolutional stems)** 和**基于Transformer的融合(transformer-based fusion)**，融合RGB相机流、基于视觉的**GelSight Mini** 传感器和**高频事件式Evetac传感器(high-frequency event-based Evetac sensor)** - 多传感器表示条件化一个**流匹配策略(flow-matching policy)** 用于解决下游操作任务

💡 核心创新

- **首创性**：首次系统地利用多分辨率触觉传感器（低频视觉触觉+高频事件触觉）进行模仿学习，解决复杂接触密集任务 - **表示框架**：提出MiTaS框架，通过卷积主干和Transformer融合有效整合异质触觉信息，优于纯视觉和视觉-触觉基线 - **实用优势**：在策略评估时无需Evetac传感器，通过联合训练(Co-training)提升性能超过10%，降低硬件依赖 - **深入分析**：通过传感器读数和注意力分析揭示不同传感器在任务执行中的重要性，验证多分辨率触觉方法的有效性

🏆 总体贡献

- 为接触密集型机器人操作(contact-rich robotic manipulation)提供了一种新颖的**多分辨率触觉模仿学习范式** - 在五个接触密集任务上平均成功率80%，远高于纯视觉(31%)和视觉-触觉(54%)基线，达到**SOTA(state-of-the-art)** 性能 - 开源项目页面(http://mitas-touch.github.io)促进社区复现与后续研究，推动触觉传感器融合在机器人学习中的应用

面向密集接触机器人操作的多分辨率触觉模仿学习
Multi-Resolution Tactile Imitation Learning for Contact-Rich Robotic Manipulation

📊 核心分析

面向密集接触机器人操作的多分辨率触觉模仿学习 Multi-Resolution Tactile Imitation Learning for Contact-Rich Robotic Manipulation

📊 核心分析

面向密集接触机器人操作的多分辨率触觉模仿学习
Multi-Resolution Tactile Imitation Learning for Contact-Rich Robotic Manipulation