TouchAnything：基于第一人称视频的双手触觉估计数据集与框架

📝 论文摘要

以自我为中心的人体视频数据能够捕捉丰富的人与环境交互信息，并可大规模收集，已成为具身智能研究的关键驱动力。然而，现有自我中心数据集通常缺乏触觉感知——这一关键模态提供了人-物交互中关于接触、力和压力的直接线索。缺乏此类信号时，模型难以学习现实世界交互动态的物理基础表征。尽管触觉传感器能提供这些线索，但大规模部署高质量触觉硬件仍成本高昂且操作繁琐。这引发了一个核心问题：能否从视觉观察中直接推断触觉反馈，从而为自我中心视频数据提供可扩展的触觉监督，并支持基于物理的具身学习？为促进该方向的研究，我们提出EgoTouch——一个大规模多视角自我中心数据集，包含双手手-物交互的密集触觉监督。EgoTouch涵盖208个操作任务、共1891个场景序列，覆盖多样室内外环境，同步采集了多视角RGB图像（头戴式自我中心视角与双腕佩戴视角）、双手3D手部姿态以及来自可穿戴触觉传感器的连续压力图。基于EgoTouch，我们提出TouchAnything——一个基线多视角视觉到触觉预测框架，以自我中心视角为主输入，并在推理时灵活利用可用的腕部视角。实验表明，与仅使用自我中心视角相比，引入腕部视角通常能改善触觉预测，接触交并比相对提升最高达5.0%，体积交并比相对提升最高达6.1%。我们将公开发布数据集、代码和基准测试。

🎯 研究动机

- 现有第一人称视频数据集缺乏**触觉感知(tactile sensing)**，而触觉是理解人-物交互中接触、力、压力等物理线索的关键模态 - 部署高质量触觉硬件成本高昂且繁琐，因此探索能否从**视觉观察(visual observations)** 直接推断触觉反馈，以实现可扩展的触觉监督 - 研究背景：第一人称视频数据在具身智能研究中日益重要，但缺乏物理接地(physical grounding)的触觉信号，导致模型难以学习真实的交互动力学

🔧 核心方法

- 构建**EgoTouch数据集**，包含208个双手操作任务、1891个片段，提供同步多视角RGB（头戴式第一人称+双腕相机）、双手3D手部姿态以及来自可穿戴触觉传感器的连续压力图 - 提出**TouchAnything框架**，一个基线多视角视觉-触觉预测(vision-to-touch prediction)模型，以第一人称视角为主输入，推理时灵活利用可用的腕部视角进行融合预测 - 将触觉预测任务形式化为从视觉特征回归压力图，并引入**接触交并比(Contact IoU)** 和**体积交并比(Volumetric IoU)** 作为评估指标

💡 核心创新

- **数据集创新**：首个大规模多视角第一人称视频数据集，提供**密集触觉监督(dense tactile supervision)**，覆盖多样室内外环境和真实双手交互 - **预测框架创新**：提出**多视角融合策略(multi-view fusion strategy)**，利用第一人称和腕部视角协同提升触觉预测准确性，相比仅用第一人称视角有显著提升（Contact IoU相对提升5.0%，Volumetric IoU相对提升6.1%） - **模块化架构**：框架设计允许灵活适应不同数量的可用腕部视角，提升在真实部署中的实用性

🏆 总体贡献

- 为触觉估计和具身智能领域提供了大规模高质量数据集**EgoTouch**，填补了第一人称视频缺乏触觉标注的空白 - 建立了**TouchAnything基线框架** 和评估基准，为后续视觉到触觉预测研究提供参考方法和指标 - 通过实验证明多视角视觉信息对触觉预测的有效性，推动了从视觉推断触觉信号这一研究方向的发展 - 开源数据集、代码和基准，促进社区复现和进一步研究

TouchAnything：基于第一人称视频的双手触觉估计数据集与框架
TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video

📊 核心分析

TouchAnything：基于第一人称视频的双手触觉估计数据集与框架 TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video

📊 核心分析

TouchAnything：基于第一人称视频的双手触觉估计数据集与框架
TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video