← 返回论文列表

OASIS:基于SE(3)轨迹预测的观察-动作空间对齐用于机器人操作
OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation

作者: Xinzhe Chen, Sihua Ren, Liqi Huang 等8人
arXiv: 2605.25829v1
分类: cs.RO, cs.AI
📝 论文摘要
近期,视觉-语言-动作(VLA)模型与世界动作模型(WAMs)通过引入辅助空间特征或未来视觉状态预测来丰富中间表征,从而推动了机器人操控技术的发展。然而,这些表征大多仍局限于观测空间,未能共享动作空间的刚体几何特性,迫使动作解码器隐式地恢复该几何结构。我们提出OASIS——一种通过$SE(3)$末端效应器轨迹预测使中间表征与动作空间对齐的视觉运动策略。OASIS将融合视觉-语言与度量深度特征的3D感知特征编码器与生成相机坐标系末端效应器轨迹的$SE(3)$轨迹预测器相结合。基于预测器位姿监督的隐状态,动作解码器生成符合刚体运动规律的动作块。在仿真与真实世界实验中,OASIS在成功率和分布外泛化能力上均优于VLA与WAM基线方法。项目页面详见https://npuhandsome.github.io/OASIS_web。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型和**世界动作模型(World Action Models, WAMs)** 的中间表征仅停留在观察空间,未共享动作空间的**刚体几何(rigid-body geometry)**,导致动作解码器需隐式恢复该几何 - 这种表征与动作空间的不对齐限制了操作任务的**成功率** 和**分布外泛化(out-of-distribution generalization)** 能力 - 机器人操作需要一种显式将刚体运动几何融入中间表征的方法,以提升策略的鲁棒性
🔧 核心方法
- 提出**OASIS** 框架,由**3D感知特征编码器(3D-aware feature encoder)** 和**SE(3)轨迹预测器(SE(3) trajectory predictor)** 组成 - **3D感知特征编码器** 融合视觉语言特征与**度量深度特征(metric-depth features)**,生成3D空间感知表示 - **SE(3)轨迹预测器** 在相机坐标系下预测末端执行器的**SE(3)轨迹**,输出包含位姿监督的隐藏状态 - **动作解码器** 接收预测器的姿态监督隐藏状态,生成与刚体运动一致的**动作块(action chunks)**
💡 核心创新
- **表征对齐创新**:首次通过**SE(3)末端执行器轨迹预测** 将中间表征与动作空间显式对齐,而非停留在观察空间 - **几何先验嵌入**:将**刚体运动几何(rigid-body motion geometry)** 作为归纳偏置引入中间表征,使动作解码器无需隐式恢复几何 - **端到端联合训练**:特征编码器、轨迹预测器和动作解码器进行联合优化,三者相互促进提升整体性能
🏆 总体贡献
- 为机器人操作领域提供了一种**观察-动作空间对齐(Observation-Action Space Alignment)** 的新范式 - 在仿真和真实实验中,**OASIS** 在**成功率(success rate)** 和**分布外泛化** 上超越现有VLA和WAM基线,达到**SOTA(state-of-the-art)** 性能 - 公开项目页面(含代码)促进社区复现与后续研究,推动**具身智能(embodied intelligence)** 发展