← 返回论文列表

TouchAnything:基于第一人称视频的双手触觉估计数据集与框架
TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video

作者: Jianyi Zhou, Ziteng Gao, Feiyang Hong 等14人
arXiv: 2605.13083v1
分类: cs.RO
📝 论文摘要
以自我为中心的人体视频数据能够捕捉丰富的人与环境交互信息,并可大规模收集,已成为具身智能研究的关键驱动力。然而,现有自我中心数据集通常缺乏触觉感知——这一关键模态提供了人-物交互中关于接触、力和压力的直接线索。缺乏此类信号时,模型难以学习现实世界交互动态的物理基础表征。尽管触觉传感器能提供这些线索,但大规模部署高质量触觉硬件仍成本高昂且操作繁琐。这引发了一个核心问题:能否从视觉观察中直接推断触觉反馈,从而为自我中心视频数据提供可扩展的触觉监督,并支持基于物理的具身学习?为促进该方向的研究,我们提出EgoTouch——一个大规模多视角自我中心数据集,包含双手手-物交互的密集触觉监督。EgoTouch涵盖208个操作任务、共1891个场景序列,覆盖多样室内外环境,同步采集了多视角RGB图像(头戴式自我中心视角与双腕佩戴视角)、双手3D手部姿态以及来自可穿戴触觉传感器的连续压力图。基于EgoTouch,我们提出TouchAnything——一个基线多视角视觉到触觉预测框架,以自我中心视角为主输入,并在推理时灵活利用可用的腕部视角。实验表明,与仅使用自我中心视角相比,引入腕部视角通常能改善触觉预测,接触交并比相对提升最高达5.0%,体积交并比相对提升最高达6.1%。我们将公开发布数据集、代码和基准测试。

📊 核心分析

🎯 研究动机
- 现有第一人称视频数据集缺乏**触觉感知(tactile sensing)**,而触觉是理解人-物交互中接触、力、压力等物理线索的关键模态 - 部署高质量触觉硬件成本高昂且繁琐,因此探索能否从**视觉观察(visual observations)** 直接推断触觉反馈,以实现可扩展的触觉监督 - 研究背景:第一人称视频数据在具身智能研究中日益重要,但缺乏物理接地(physical grounding)的触觉信号,导致模型难以学习真实的交互动力学
🔧 核心方法
- 构建**EgoTouch数据集**,包含208个双手操作任务、1891个片段,提供同步多视角RGB(头戴式第一人称+双腕相机)、双手3D手部姿态以及来自可穿戴触觉传感器的连续压力图 - 提出**TouchAnything框架**,一个基线多视角视觉-触觉预测(vision-to-touch prediction)模型,以第一人称视角为主输入,推理时灵活利用可用的腕部视角进行融合预测 - 将触觉预测任务形式化为从视觉特征回归压力图,并引入**接触交并比(Contact IoU)** 和**体积交并比(Volumetric IoU)** 作为评估指标
💡 核心创新
- **数据集创新**:首个大规模多视角第一人称视频数据集,提供**密集触觉监督(dense tactile supervision)**,覆盖多样室内外环境和真实双手交互 - **预测框架创新**:提出**多视角融合策略(multi-view fusion strategy)**,利用第一人称和腕部视角协同提升触觉预测准确性,相比仅用第一人称视角有显著提升(Contact IoU相对提升5.0%,Volumetric IoU相对提升6.1%) - **模块化架构**:框架设计允许灵活适应不同数量的可用腕部视角,提升在真实部署中的实用性
🏆 总体贡献
- 为触觉估计和具身智能领域提供了大规模高质量数据集**EgoTouch**,填补了第一人称视频缺乏触觉标注的空白 - 建立了**TouchAnything基线框架** 和评估基准,为后续视觉到触觉预测研究提供参考方法和指标 - 通过实验证明多视角视觉信息对触觉预测的有效性,推动了从视觉推断触觉信号这一研究方向的发展 - 开源数据集、代码和基准,促进社区复现和进一步研究