SigLoMa：从自我中心视觉学习开放世界四足移动操作

📝 论文摘要

设计一个开放世界的四足移动操作系统极具挑战性。传统利用外感受的强化学习框架通常面临样本效率极低和模拟到真实的巨大差距。此外，视觉跟踪固有的延迟与精确浮基控制的高频需求根本冲突。因此，现有系统严重依赖昂贵的外部运动捕捉和机外计算。为消除这些依赖，我们提出了SigLoMa——一种完全自主、基于自我中心视觉的抓取与放置框架。SigLoMa的核心是引入Sigma点，这是一种轻量级的外感受几何表示，能保证高可扩展性和原生模拟到真实的对齐。为弥合慢速感知与快速控制之间的频率差异，我们设计了一种自我中心卡尔曼滤波器，以提供稳健的高速率状态估计。在学习方面，我们通过由提示姿态引导的主动采样课程来缓解样本效率问题，并利用时间编码结合模拟随机游走漂移来解决机器人结构性的视觉盲区。真实世界实验验证，仅依靠一个5Hz（200毫秒延迟）的开放词汇检测器，SigLoMa成功在多个任务中执行动态移动操作，其性能可与专家人类遥操作相媲美。

🎯 研究动机

- 开世界四足机器人**移动操作(loco-manipulation)** 系统设计极具挑战，传统基于外部感知(exteroception)的强化学习框架存在样本效率极低、仿真到现实(sim-to-real)差距大的问题 - 视觉跟踪的固有延迟与高频浮基控制(foating-base control)需求根本冲突，导致现有系统严重依赖昂贵的外部运动捕捉和机外计算 - 缺乏一种完全机载(onboard)、自我中心视觉(ego-centric vision)的低成本解决方案

🔧 核心方法

- 提出**SigLoMa** 框架，核心引入**Sigma Points**——一种轻量级几何表示(lightweight geometric representation)，用于外部感知，保证高可扩展性和原生sim-to-real对齐 - 设计**自我中心卡尔曼滤波器(ego-centric Kalman Filter)**，以桥接慢速感知（5Hz检测器）与快速控制之间的频率差异，提供鲁棒高速状态估计 - 采用**Hint Poses引导的主动采样课程(Active Sampling Curriculum)** 缓解样本低效问题，并使用**时序编码(temporal encoding)** 与模拟随机游走漂移处理机器人结构视觉盲点

💡 核心创新

- **Sigma Points表示** 首次实现轻量级几何外部感知，保证高可扩展性且无需额外sim-to-real适配 - **自我中心卡尔曼滤波器** 创新性地解决了慢感知与快控制的频率鸿沟，无需外部运动捕捉 - **主动采样课程与时序编码** 共同克服了样本低效和视觉盲点，使得仅依赖5Hz开放词汇检测器即可完成动态任务 - 完全机载、自我中心视觉的设计消除了对外部依赖，性能与专家人类遥操作相当

🏆 总体贡献

- 提出了首个完全机载、基于自我中心视觉的**开世界四足移动操作** 框架，显著降低系统成本与复杂度 - 验证了仅使用低帧率、高延迟（5Hz,200ms）视觉检测器即可实现与专家遥操作媲美的动态操作性能 - 为四足机器人在非结构化环境中进行抓取放置(pick-and-place)任务提供了可复现的轻量级范式，推动了自主移动操作的实用化

SigLoMa：从自我中心视觉学习开放世界四足移动操作
SigLoMa: Learning Open-World Quadrupedal Loco-Manipulation from Ego-Centric Vision

📊 核心分析

SigLoMa：从自我中心视觉学习开放世界四足移动操作 SigLoMa: Learning Open-World Quadrupedal Loco-Manipulation from Ego-Centric Vision

📊 核心分析

SigLoMa：从自我中心视觉学习开放世界四足移动操作
SigLoMa: Learning Open-World Quadrupedal Loco-Manipulation from Ego-Centric Vision