- 现有第一人称视频数据集缺乏**触觉感知(tactile sensing)**,而触觉是理解人-物交互中接触、力、压力等物理线索的关键模态
- 部署高质量触觉硬件成本高昂且繁琐,因此探索能否从**视觉观察(visual observations)** 直接推断触觉反馈,以实现可扩展的触觉监督
- 研究背景:第一人称视频数据在具身智能研究中日益重要,但缺乏物理接地(physical grounding)的触觉信号,导致模型难以学习真实的交互动力学
- 构建**EgoTouch数据集**,包含208个双手操作任务、1891个片段,提供同步多视角RGB(头戴式第一人称+双腕相机)、双手3D手部姿态以及来自可穿戴触觉传感器的连续压力图
- 提出**TouchAnything框架**,一个基线多视角视觉-触觉预测(vision-to-touch prediction)模型,以第一人称视角为主输入,推理时灵活利用可用的腕部视角进行融合预测
- 将触觉预测任务形式化为从视觉特征回归压力图,并引入**接触交并比(Contact IoU)** 和**体积交并比(Volumetric IoU)** 作为评估指标
- **数据集创新**:首个大规模多视角第一人称视频数据集,提供**密集触觉监督(dense tactile supervision)**,覆盖多样室内外环境和真实双手交互
- **预测框架创新**:提出**多视角融合策略(multi-view fusion strategy)**,利用第一人称和腕部视角协同提升触觉预测准确性,相比仅用第一人称视角有显著提升(Contact IoU相对提升5.0%,Volumetric IoU相对提升6.1%)
- **模块化架构**:框架设计允许灵活适应不同数量的可用腕部视角,提升在真实部署中的实用性
- 为触觉估计和具身智能领域提供了大规模高质量数据集**EgoTouch**,填补了第一人称视频缺乏触觉标注的空白
- 建立了**TouchAnything基线框架** 和评估基准,为后续视觉到触觉预测研究提供参考方法和指标
- 通过实验证明多视角视觉信息对触觉预测的有效性,推动了从视觉推断触觉信号这一研究方向的发展
- 开源数据集、代码和基准,促进社区复现和进一步研究