← 返回论文列表

R3D:重新审视三维策略学习
R3D: Revisiting 3D Policy Learning

作者: Zhengdong Hong, Shenrui Wu, Haozhe Cui 等11人
arXiv: 2604.15281v1
分类: cs.CV, cs.RO
📝 论文摘要
三维策略学习有望实现卓越的泛化能力与跨实体迁移效果,但其发展一直受限于训练过程的不稳定性与严重的过拟合问题,导致无法有效采用先进的三维感知模型。本研究系统性地诊断了这些失败案例,发现三维数据增强的缺失以及批量归一化的负面影响是主要原因。我们提出了一种新型架构,将基于可扩展Transformer的三维编码器与扩散解码器相结合,该架构专为大规模训练的稳定性而设计,并能有效利用大规模预训练优势。在具有挑战性的操作基准测试中,我们的方法显著超越了当前最先进的三维基线模型,为可扩展的三维模仿学习建立了全新且稳健的基础。项目页面:https://r3d-policy.github.io/

📊 核心分析

🎯 研究动机
该论文旨在解决3D策略学习(3D policy learning)中的两大关键问题:训练不稳定性和严重过拟合。这些技术障碍阻碍了研究者采用强大的3D感知模型,从而限制了3D策略在泛化性和跨具身(embodiment)迁移方面的潜力。
🔧 核心方法
论文提出了一种名为R3D的新架构,该方法包含两个核心组件: - 一个可扩展的、基于Transformer的3D编码器(3D encoder),用于处理3D感知输入。 - 一个扩散解码器(diffusion decoder),用于生成策略动作。 该方法特别针对大规模训练的稳定性进行了工程化设计,并旨在有效利用大规模预训练。
💡 核心创新
论文的核心创新点在于系统性地诊断并解决了3D模仿学习(imitation learning)中的根本性失败原因,并提出了一个全新的、稳定的架构范式: - **诊断性发现**:首次明确指出,缺乏3D数据增强(3D data augmentation)以及批归一化(Batch Normalization)的负面影响是导致训练失败的主要原因。 - **架构创新**:将可扩展的Transformer 3D编码器与扩散解码器耦合,这种组合专为大规模稳定训练而设计,与以往方法有本质区别。 - **稳定性突破**:通过上述诊断和架构设计,从根本上克服了该领域长期存在的训练不稳定和过拟合问题,为后续研究建立了新的、鲁棒的基础。
🏆 总体贡献
论文对该领域的整体贡献包括: - 为可扩展的3D模仿学习建立了一个全新且鲁棒的基础框架。 - 在具有挑战性的操作基准测试上,其性能显著超越了最先进的3D基线方法(state-of-the-art 3D baselines)。 - 通过系统性诊断和针对性设计,解决了长期阻碍3D策略学习发展的关键瓶颈,推动了该领域向更强大、更通用的方向发展。