← 返回论文列表

指眼:灵巧操作中的连续统一视觉触觉感知
FingerEye: Continuous and Unified Vision-Tactile Sensing for Dexterous Manipulation

作者: Zhixuan Xu, Yichen Li, Xuanye Wu 等5人
arXiv: 2604.20689v1
分类: cs.RO
📝 论文摘要
灵巧的机器人操作需要在交互的所有阶段——接触前、接触起始和接触后——具备全面的感知能力。这种连续的反馈使机器人能够在整个交互过程中调整其动作。然而,许多现有的触觉传感器,如GelSight及其变体,仅在接触建立后提供反馈,限制了机器人精确起始接触的能力。我们推出了FingerEye,这是一种紧凑且经济高效的传感器,可在整个交互过程中提供连续的视觉-触觉反馈。FingerEye集成了双目RGB摄像头,提供具有隐式立体深度的近距离视觉感知。接触时,外部力和扭矩会使柔性环结构变形;这些变形通过基于标记的姿态估计捕获,并作为接触力矩感知的代理。这种设计实现了从接触前视觉线索到接触后触觉反馈的平滑过渡感知流。基于这种感知能力,我们开发了一种视觉-触觉模仿学习策略,融合来自多个FingerEye传感器的信号,从有限的真实世界数据中学习灵巧的操作行为。我们进一步开发了传感器和机器人平台的数字孪生,以提高策略的泛化能力。通过将真实演示与视觉增强的模拟观察相结合进行表征学习,学习到的策略对物体外观变化更具鲁棒性。这些设计方面共同实现了跨不同物体属性和交互模式的灵巧操作,包括硬币竖立、芯片拾取、信件检索和注射器操作。硬件设计、代码、附录和视频可在我们的项目网站上获取:https://nus-lins-lab.github.io/FingerEyeWeb/

📊 核心分析

🎯 研究动机
该论文旨在解决灵巧机器人操作中感知不连续的问题。研究背景是: - 现有触觉传感器(如GelSight及其变体)仅在接触建立后提供反馈,限制了机器人精确发起接触的能力 - 灵巧操作需要在预接触、接触初始化和后接触所有阶段具备连续感知能力,以便机器人能实时调整动作
🔧 核心方法
论文采用以下技术方法: - 设计FingerEye传感器:集成双目RGB相机提供近距离视觉感知和隐式立体深度 - 接触力感知机制:通过基于标记的姿态估计捕捉外力/力矩导致的柔性环结构变形,作为接触力/力矩的代理测量 - 开发视觉-触觉模仿学习策略:融合多个FingerEye传感器信号,从有限真实数据中学习灵巧操作行为 - 构建数字孪生系统:通过视觉增强的模拟观测与真实演示结合进行表示学习,提升策略泛化能力
💡 核心创新
论文的核心创新点包括: - 首次实现连续统一的视觉-触觉感知:FingerEye传感器能在整个交互过程中提供从预接触视觉线索到后接触触觉反馈的平滑过渡感知流 - 创新的传感器设计:通过柔性环结构变形作为接触力/力矩的代理测量,同时保持紧凑且成本效益高的设计 - 混合真实-模拟学习框架:结合真实演示和视觉增强的模拟观测进行表示学习,显著提升策略对物体外观变化的鲁棒性 - 完整的感知-学习系统:将新型传感器硬件与专门设计的模仿学习策略及数字孪生平台紧密结合,形成端到端的灵巧操作解决方案
🏆 总体贡献
论文对该领域的整体贡献为: - 提出并实现了首个能提供连续视觉-触觉反馈的紧凑型传感器系统,填补了现有触觉传感器在接触初始化阶段感知能力的空白 - 开发了基于FingerEye传感器的视觉-触觉模仿学习框架,能够从有限真实数据中学习复杂的灵巧操作技能 - 通过数字孪生和视觉增强技术显著提升了学习策略的泛化能力,使其能适应多样化的物体属性和交互场景 - 在硬币站立、芯片拾取、信件检索和注射器操作等多种任务上验证了系统的有效性,为灵巧操作研究提供了新的硬件平台和算法框架