该论文旨在解决灵巧机器人操作中感知不连续的问题。研究背景是:
- 现有触觉传感器(如GelSight及其变体)仅在接触建立后提供反馈,限制了机器人精确发起接触的能力
- 灵巧操作需要在预接触、接触初始化和后接触所有阶段具备连续感知能力,以便机器人能实时调整动作
论文采用以下技术方法:
- 设计FingerEye传感器:集成双目RGB相机提供近距离视觉感知和隐式立体深度
- 接触力感知机制:通过基于标记的姿态估计捕捉外力/力矩导致的柔性环结构变形,作为接触力/力矩的代理测量
- 开发视觉-触觉模仿学习策略:融合多个FingerEye传感器信号,从有限真实数据中学习灵巧操作行为
- 构建数字孪生系统:通过视觉增强的模拟观测与真实演示结合进行表示学习,提升策略泛化能力
论文的核心创新点包括:
- 首次实现连续统一的视觉-触觉感知:FingerEye传感器能在整个交互过程中提供从预接触视觉线索到后接触触觉反馈的平滑过渡感知流
- 创新的传感器设计:通过柔性环结构变形作为接触力/力矩的代理测量,同时保持紧凑且成本效益高的设计
- 混合真实-模拟学习框架:结合真实演示和视觉增强的模拟观测进行表示学习,显著提升策略对物体外观变化的鲁棒性
- 完整的感知-学习系统:将新型传感器硬件与专门设计的模仿学习策略及数字孪生平台紧密结合,形成端到端的灵巧操作解决方案
论文对该领域的整体贡献为:
- 提出并实现了首个能提供连续视觉-触觉反馈的紧凑型传感器系统,填补了现有触觉传感器在接触初始化阶段感知能力的空白
- 开发了基于FingerEye传感器的视觉-触觉模仿学习框架,能够从有限真实数据中学习复杂的灵巧操作技能
- 通过数字孪生和视觉增强技术显著提升了学习策略的泛化能力,使其能适应多样化的物体属性和交互场景
- 在硬币站立、芯片拾取、信件检索和注射器操作等多种任务上验证了系统的有效性,为灵巧操作研究提供了新的硬件平台和算法框架