学习结构潜在点以实现机器人操作中的高效视觉表示

📝 论文摘要

当前面向具身感知与操作的三维感知预训练方法主要基于可微渲染框架，生成完全隐式神经场或完全显式几何基元。隐式表示虽具表现力，但缺乏显式结构线索；显式表示虽保留几何信息，却受限于分辨率与泛化能力不足。为解决这些局限，我们提出一种新的预训练框架，学习混合表示——结构隐变量点。具体而言，我们在点云自编码器的隐空间中插入逐点隐变量变分自编码器，联合正则化逐点特征与坐标使其服从高斯先验。由此产生的紧凑隐变量保留了粗粒度的结构趋势，虽不编码精确几何，但捕获了更丰富的粗糙形状与语义信息，有效结合了隐式表示的表现力与显式表示的结构先验。此外，借鉴先前工作中的共享设计选择，我们开发了一套基于3DGS的流线型高效渲染管线，刻意保持轻量化，在提升效率的同时将更多表示能力留给前端隐变量模块。在RLBench、ManiSkill2及真实机器人平台上的广泛评估表明，该方法在任务成功率、样本效率以及对视角与场景变化的鲁棒性上均持续优于强基线。消融研究进一步证实，框架中每个组件对整体性能均至关重要。

🎯 研究动机

- 当前3D感知预训练方法主要基于**可微渲染(differentiable rendering)** 框架，产生完全**隐式神经场(implicit neural fields)** 或完全**显式几何基元(explicit geometric primitives)**，两者各有缺陷 - **隐式表示** 虽然表达力强，但缺乏明确的结构线索，不利于机器人操作任务 - **显式表示** 保留了几何结构，但受限于分辨率，且泛化能力弱 - 现有方法难以同时兼顾**表达力(expressiveness)** 与**结构先验(structural priors)**

🔧 核心方法

- 提出**结构潜在点(Structural Latent Points)** 的混合表示：在**点云自编码器(point-cloud autoencoder)** 的潜在空间中插入一个**点级潜在变分自编码器(point-wise latent VAE)** - 通过联合正则化，将点级特征和坐标推向**高斯先验(Gaussian prior)**，得到紧凑的潜在表示 - 紧凑潜在表示不编码精确几何，而是捕获**粗略形状(rough shape)** 和**语义信息(semantic information)** - 开发基于**3D高斯泼溅(3DGS)** 的高效轻量级渲染管线，将更多表示能力留给前端潜在模块

💡 核心创新

- **首创性**：提出**结构潜在点** 这一**混合表示(hybrid representation)**，第一次将隐式的表达力与显式的结构先验结合于统一预训练框架 - **表示效率**：紧凑潜在表示保留**粗结构倾向(coarse structural tendencies)**，在保持轻量的同时具备丰富的语义和形状信息 - **渲染设计**：故意保持**3DGS渲染管线** 轻量化，提升效率并解耦表示学习与渲染重建 - **端到端(end-to-end)**：无需繁琐的阶段式训练，通过VAE正则化实现点云潜在空间的结构化

🏆 总体贡献

- 为**机器人操作(robotic manipulation)** 中的3D感知预训练提供了一种新颖的**混合表示范式(hybrid representation paradigm)** - 在**RLBench**、**ManiSkill2** 和真实机器人平台上取得一致的任务成功率提升、样本效率提高，以及对视角和场景变化更强的鲁棒性 - **消融实验(ablation studies)** 证实每一组件（点级VAE、3DGS渲染）对整体性能均至关重要 - 开源框架有望推动**具身智能(embodied intelligence)** 领域的高效视觉表示学习

学习结构潜在点以实现机器人操作中的高效视觉表示
Learning Structural Latent Points for Efficient Visual Representations in Robotic Manipulation

📊 核心分析

学习结构潜在点以实现机器人操作中的高效视觉表示 Learning Structural Latent Points for Efficient Visual Representations in Robotic Manipulation

📊 核心分析

学习结构潜在点以实现机器人操作中的高效视觉表示
Learning Structural Latent Points for Efficient Visual Representations in Robotic Manipulation