OASIS：基于SE(3)轨迹预测的观察-动作空间对齐用于机器人操作

📝 论文摘要

近期，视觉-语言-动作（VLA）模型与世界动作模型（WAMs）通过引入辅助空间特征或未来视觉状态预测来丰富中间表征，从而推动了机器人操控技术的发展。然而，这些表征大多仍局限于观测空间，未能共享动作空间的刚体几何特性，迫使动作解码器隐式地恢复该几何结构。我们提出OASIS——一种通过$SE(3)$末端效应器轨迹预测使中间表征与动作空间对齐的视觉运动策略。OASIS将融合视觉-语言与度量深度特征的3D感知特征编码器与生成相机坐标系末端效应器轨迹的$SE(3)$轨迹预测器相结合。基于预测器位姿监督的隐状态，动作解码器生成符合刚体运动规律的动作块。在仿真与真实世界实验中，OASIS在成功率和分布外泛化能力上均优于VLA与WAM基线方法。项目页面详见https://npuhandsome.github.io/OASIS_web。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型和**世界动作模型(World Action Models, WAMs)** 的中间表征仅停留在观察空间，未共享动作空间的**刚体几何(rigid-body geometry)**，导致动作解码器需隐式恢复该几何 - 这种表征与动作空间的不对齐限制了操作任务的**成功率** 和**分布外泛化(out-of-distribution generalization)** 能力 - 机器人操作需要一种显式将刚体运动几何融入中间表征的方法，以提升策略的鲁棒性

🔧 核心方法

- 提出**OASIS** 框架，由**3D感知特征编码器(3D-aware feature encoder)** 和**SE(3)轨迹预测器(SE(3) trajectory predictor)** 组成 - **3D感知特征编码器** 融合视觉语言特征与**度量深度特征(metric-depth features)**，生成3D空间感知表示 - **SE(3)轨迹预测器** 在相机坐标系下预测末端执行器的**SE(3)轨迹**，输出包含位姿监督的隐藏状态 - **动作解码器** 接收预测器的姿态监督隐藏状态，生成与刚体运动一致的**动作块(action chunks)**

💡 核心创新

- **表征对齐创新**：首次通过**SE(3)末端执行器轨迹预测** 将中间表征与动作空间显式对齐，而非停留在观察空间 - **几何先验嵌入**：将**刚体运动几何(rigid-body motion geometry)** 作为归纳偏置引入中间表征，使动作解码器无需隐式恢复几何 - **端到端联合训练**：特征编码器、轨迹预测器和动作解码器进行联合优化，三者相互促进提升整体性能

🏆 总体贡献

- 为机器人操作领域提供了一种**观察-动作空间对齐(Observation-Action Space Alignment)** 的新范式 - 在仿真和真实实验中，**OASIS** 在**成功率(success rate)** 和**分布外泛化** 上超越现有VLA和WAM基线，达到**SOTA(state-of-the-art)** 性能 - 公开项目页面（含代码）促进社区复现与后续研究，推动**具身智能(embodied intelligence)** 发展

OASIS：基于SE(3)轨迹预测的观察-动作空间对齐用于机器人操作
OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation

📊 核心分析

OASIS：基于SE(3)轨迹预测的观察-动作空间对齐用于机器人操作 OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation

📊 核心分析

OASIS：基于SE(3)轨迹预测的观察-动作空间对齐用于机器人操作
OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation