该论文旨在解决3D策略学习(3D policy learning)中的两大关键问题:训练不稳定性和严重过拟合。这些技术障碍阻碍了研究者采用强大的3D感知模型,从而限制了3D策略在泛化性和跨具身(embodiment)迁移方面的潜力。
论文提出了一种名为R3D的新架构,该方法包含两个核心组件:
- 一个可扩展的、基于Transformer的3D编码器(3D encoder),用于处理3D感知输入。
- 一个扩散解码器(diffusion decoder),用于生成策略动作。
该方法特别针对大规模训练的稳定性进行了工程化设计,并旨在有效利用大规模预训练。
论文的核心创新点在于系统性地诊断并解决了3D模仿学习(imitation learning)中的根本性失败原因,并提出了一个全新的、稳定的架构范式:
- **诊断性发现**:首次明确指出,缺乏3D数据增强(3D data augmentation)以及批归一化(Batch Normalization)的负面影响是导致训练失败的主要原因。
- **架构创新**:将可扩展的Transformer 3D编码器与扩散解码器耦合,这种组合专为大规模稳定训练而设计,与以往方法有本质区别。
- **稳定性突破**:通过上述诊断和架构设计,从根本上克服了该领域长期存在的训练不稳定和过拟合问题,为后续研究建立了新的、鲁棒的基础。
论文对该领域的整体贡献包括:
- 为可扩展的3D模仿学习建立了一个全新且鲁棒的基础框架。
- 在具有挑战性的操作基准测试上,其性能显著超越了最先进的3D基线方法(state-of-the-art 3D baselines)。
- 通过系统性诊断和针对性设计,解决了长期阻碍3D策略学习发展的关键瓶颈,推动了该领域向更强大、更通用的方向发展。