- 开世界四足机器人**移动操作(loco-manipulation)** 系统设计极具挑战,传统基于外部感知(exteroception)的强化学习框架存在样本效率极低、仿真到现实(sim-to-real)差距大的问题
- 视觉跟踪的固有延迟与高频浮基控制(foating-base control)需求根本冲突,导致现有系统严重依赖昂贵的外部运动捕捉和机外计算
- 缺乏一种完全机载(onboard)、自我中心视觉(ego-centric vision)的低成本解决方案
- 提出**SigLoMa** 框架,核心引入**Sigma Points**——一种轻量级几何表示(lightweight geometric representation),用于外部感知,保证高可扩展性和原生sim-to-real对齐
- 设计**自我中心卡尔曼滤波器(ego-centric Kalman Filter)**,以桥接慢速感知(5Hz检测器)与快速控制之间的频率差异,提供鲁棒高速状态估计
- 采用**Hint Poses引导的主动采样课程(Active Sampling Curriculum)** 缓解样本低效问题,并使用**时序编码(temporal encoding)** 与模拟随机游走漂移处理机器人结构视觉盲点
- **Sigma Points表示** 首次实现轻量级几何外部感知,保证高可扩展性且无需额外sim-to-real适配
- **自我中心卡尔曼滤波器** 创新性地解决了慢感知与快控制的频率鸿沟,无需外部运动捕捉
- **主动采样课程与时序编码** 共同克服了样本低效和视觉盲点,使得仅依赖5Hz开放词汇检测器即可完成动态任务
- 完全机载、自我中心视觉的设计消除了对外部依赖,性能与专家人类遥操作相当
- 提出了首个完全机载、基于自我中心视觉的**开世界四足移动操作** 框架,显著降低系统成本与复杂度
- 验证了仅使用低帧率、高延迟(5Hz,200ms)视觉检测器即可实现与专家遥操作媲美的动态操作性能
- 为四足机器人在非结构化环境中进行抓取放置(pick-and-place)任务提供了可复现的轻量级范式,推动了自主移动操作的实用化