- 当前3D感知预训练方法主要基于**可微渲染(differentiable rendering)** 框架,产生完全**隐式神经场(implicit neural fields)** 或完全**显式几何基元(explicit geometric primitives)**,两者各有缺陷
- **隐式表示** 虽然表达力强,但缺乏明确的结构线索,不利于机器人操作任务
- **显式表示** 保留了几何结构,但受限于分辨率,且泛化能力弱
- 现有方法难以同时兼顾**表达力(expressiveness)** 与**结构先验(structural priors)**
- 提出**结构潜在点(Structural Latent Points)** 的混合表示:在**点云自编码器(point-cloud autoencoder)** 的潜在空间中插入一个**点级潜在变分自编码器(point-wise latent VAE)**
- 通过联合正则化,将点级特征和坐标推向**高斯先验(Gaussian prior)**,得到紧凑的潜在表示
- 紧凑潜在表示不编码精确几何,而是捕获**粗略形状(rough shape)** 和**语义信息(semantic information)**
- 开发基于**3D高斯泼溅(3DGS)** 的高效轻量级渲染管线,将更多表示能力留给前端潜在模块
- **首创性**:提出**结构潜在点** 这一**混合表示(hybrid representation)**,第一次将隐式的表达力与显式的结构先验结合于统一预训练框架
- **表示效率**:紧凑潜在表示保留**粗结构倾向(coarse structural tendencies)**,在保持轻量的同时具备丰富的语义和形状信息
- **渲染设计**:故意保持**3DGS渲染管线** 轻量化,提升效率并解耦表示学习与渲染重建
- **端到端(end-to-end)**:无需繁琐的阶段式训练,通过VAE正则化实现点云潜在空间的结构化
- 为**机器人操作(robotic manipulation)** 中的3D感知预训练提供了一种新颖的**混合表示范式(hybrid representation paradigm)**
- 在**RLBench**、**ManiSkill2** 和真实机器人平台上取得一致的任务成功率提升、样本效率提高,以及对视角和场景变化更强的鲁棒性
- **消融实验(ablation studies)** 证实每一组件(点级VAE、3DGS渲染)对整体性能均至关重要
- 开源框架有望推动**具身智能(embodied intelligence)** 领域的高效视觉表示学习