该论文旨在解决在严重手部遮挡(hand occlusion)条件下进行度量尺度(metric-scale)的无模态(amodal)物体重建和姿态估计的问题。研究背景是:现有的遮挡感知(occlusion-aware)三维生成方法仅依赖视觉信息,在严重遮挡区域存在模糊性(ambiguity)。
论文提出了一种多模态(multimodal)、物理基础(physically grounded)的方法:
- 利用物理交互信号:本体感觉(proprioception)提供手部姿态几何,多触点触摸(multi-contact touch)约束物体表面位置。
- 将物体结构表示为姿态感知(pose-aware)、相机对齐(camera-aligned)的有符号距离场(Signed Distance Field, SDF)。
- 使用结构变分自编码器(Structure-VAE)学习紧凑的潜在空间(latent space)。
- 在该潜在空间中,训练一个条件流匹配扩散模型(conditional flow-matching diffusion model):先在仅视觉图像上预训练,然后在遮挡操作场景上微调(finetuning)。
- 微调和推理(inference)时,融入基于物理的目标(physics-based objectives)和可微分解码器引导(differentiable decoder-guidance),以减少手-物体互穿(interpenetration)并使重建表面与接触观测对齐。
论文的核心创新点在于:
- **首次将本体感觉和触觉信息系统地整合到严重遮挡下的三维生成重建中**,突破了现有方法仅依赖视觉的局限。
- 提出了一个**物理基础的多模态生成框架**,通过引入基于物理的目标和可微分引导,确保重建结果在物理上合理(physically plausible)且具有正确的真实世界尺度(real-world scale)。
- 所提出的方法能够**在训练时未见过的、具有不同末端执行器(end-effector)的真实人形机器人(humanoid robot)上实现有效迁移(transfer)**,证明了其泛化能力。
论文对该领域的总体贡献是:
- 提出并验证了一种新的、利用物理交互信号(本体感觉和触觉)来解决严重遮挡下三维重建模糊性的有效途径。
- 开发了一个完整的、可微分的生成模型框架,该框架能够产生度量尺度、物理一致(physically consistent)的结构估计,并可自然地集成到现有的两阶段(two-stage)重建流程中。
- 通过仿真(simulation)和真实机器人实验,证明了所提方法相比仅视觉基线(vision-only baselines)在遮挡补全(completion)和物理合理性方面的显著优势,为机器人操作(robotic manipulation)中的感知问题提供了更可靠的解决方案。