- 触觉感知(touch sensing)对解决多种操作任务有益,但利用多个**异质触觉传感器(heterogeneous tactile sensors)** 的融合来改进操作学习仍未被充分探索
- 现有方法大多依赖单一触觉传感器或视觉-触觉组合,未能充分利用不同时间分辨率(temporal resolution)传感器的互补优势
- 研究背景:复杂接触密集型任务(contact-rich manipulation tasks)需要高保真且多尺度的触觉信息,但如何有效融合多分辨率触觉信号是一个挑战
- 提出**多分辨率触觉感知(Multi-Resolution Tactile Sensing, MiTaS)** 表示框架,整合多个不同时间分辨率的触觉传感器
- 架构使用**模态特定的卷积主干(modality-specific convolutional stems)** 和**基于Transformer的融合(transformer-based fusion)**,融合RGB相机流、基于视觉的**GelSight Mini** 传感器和**高频事件式Evetac传感器(high-frequency event-based Evetac sensor)**
- 多传感器表示条件化一个**流匹配策略(flow-matching policy)** 用于解决下游操作任务
- **首创性**:首次系统地利用多分辨率触觉传感器(低频视觉触觉+高频事件触觉)进行模仿学习,解决复杂接触密集任务
- **表示框架**:提出MiTaS框架,通过卷积主干和Transformer融合有效整合异质触觉信息,优于纯视觉和视觉-触觉基线
- **实用优势**:在策略评估时无需Evetac传感器,通过联合训练(Co-training)提升性能超过10%,降低硬件依赖
- **深入分析**:通过传感器读数和注意力分析揭示不同传感器在任务执行中的重要性,验证多分辨率触觉方法的有效性
- 为接触密集型机器人操作(contact-rich robotic manipulation)提供了一种新颖的**多分辨率触觉模仿学习范式**
- 在五个接触密集任务上平均成功率80%,远高于纯视觉(31%)和视觉-触觉(54%)基线,达到**SOTA(state-of-the-art)** 性能
- 开源项目页面(http://mitas-touch.github.io)促进社区复现与后续研究,推动触觉传感器融合在机器人学习中的应用