基于本体感知与多触点触觉的手部遮挡下物理基础三维生成重建

📝 论文摘要

我们提出一种多模态、物理基础的方法，用于在严重手部遮挡下进行度量尺度的无模态物体重建与姿态估计。与以往仅依赖视觉的遮挡感知三维生成方法不同，我们利用物理交互信号：本体感知提供手部姿态几何信息，多触点触摸则约束物体表面必须位于何处，从而减少遮挡区域的模糊性。我们将物体结构表示为姿态感知、相机对齐的有符号距离场，并通过结构变分自编码器学习一个紧凑的潜在空间。在此潜在空间中，我们训练一个条件流匹配扩散模型，先在仅视觉图像上进行预训练，再在遮挡操作场景中进行微调，同时以可见RGB证据、遮挡物/可见性掩码、手部潜在表示及触觉信息为条件。关键的是，我们在微调和推理过程中引入基于物理的目标函数和可微分解码器引导，以减少手与物体的相互穿透，并使重建表面与接触观测对齐。由于我们的方法生成的是度量尺度且物理一致的结构估计，它能自然地融入现有的两阶段重建流程，其中下游模块会进一步优化几何形状并预测外观。仿真实验表明，与仅视觉基线相比，加入本体感知和触觉信息能显著提升遮挡下的补全效果，并生成符合真实世界尺度的物理合理重建结果；我们进一步通过将模型部署在具有与训练时不同末端执行器的真实仿人机器人上，验证了其迁移能力。

🎯 研究动机

该论文旨在解决在严重手部遮挡(hand occlusion)条件下进行度量尺度(metric-scale)的无模态(amodal)物体重建和姿态估计的问题。研究背景是：现有的遮挡感知(occlusion-aware)三维生成方法仅依赖视觉信息，在严重遮挡区域存在模糊性(ambiguity)。

🔧 核心方法

论文提出了一种多模态(multimodal)、物理基础(physically grounded)的方法： - 利用物理交互信号：本体感觉(proprioception)提供手部姿态几何，多触点触摸(multi-contact touch)约束物体表面位置。 - 将物体结构表示为姿态感知(pose-aware)、相机对齐(camera-aligned)的有符号距离场(Signed Distance Field, SDF)。 - 使用结构变分自编码器(Structure-VAE)学习紧凑的潜在空间(latent space)。 - 在该潜在空间中，训练一个条件流匹配扩散模型(conditional flow-matching diffusion model)：先在仅视觉图像上预训练，然后在遮挡操作场景上微调(finetuning)。 - 微调和推理(inference)时，融入基于物理的目标(physics-based objectives)和可微分解码器引导(differentiable decoder-guidance)，以减少手-物体互穿(interpenetration)并使重建表面与接触观测对齐。

💡 核心创新

论文的核心创新点在于： - **首次将本体感觉和触觉信息系统地整合到严重遮挡下的三维生成重建中**，突破了现有方法仅依赖视觉的局限。 - 提出了一个**物理基础的多模态生成框架**，通过引入基于物理的目标和可微分引导，确保重建结果在物理上合理(physically plausible)且具有正确的真实世界尺度(real-world scale)。 - 所提出的方法能够**在训练时未见过的、具有不同末端执行器(end-effector)的真实人形机器人(humanoid robot)上实现有效迁移(transfer)**，证明了其泛化能力。

🏆 总体贡献

论文对该领域的总体贡献是： - 提出并验证了一种新的、利用物理交互信号（本体感觉和触觉）来解决严重遮挡下三维重建模糊性的有效途径。 - 开发了一个完整的、可微分的生成模型框架，该框架能够产生度量尺度、物理一致(physically consistent)的结构估计，并可自然地集成到现有的两阶段(two-stage)重建流程中。 - 通过仿真(simulation)和真实机器人实验，证明了所提方法相比仅视觉基线(vision-only baselines)在遮挡补全(completion)和物理合理性方面的显著优势，为机器人操作(robotic manipulation)中的感知问题提供了更可靠的解决方案。

基于本体感知与多触点触觉的手部遮挡下物理基础三维生成重建
Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch

📊 核心分析

基于本体感知与多触点触觉的手部遮挡下物理基础三维生成重建 Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch

📊 核心分析

基于本体感知与多触点触觉的手部遮挡下物理基础三维生成重建
Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch