- 解决**人形机器人全身操控(humanoid whole-body manipulation)** 在复杂3D环境中的**空间理解(spatial understanding)** 难题
- 现有方法依赖**桌面级(tabletop)** 场景,难以泛化到具有多样空间关系的3D环境
- 真实机器人数据获取成本高、数量有限,限制了**数据驱动模型(data-driven models)** 的动作生成泛化能力
- 提出**人形运动操控框架(loco-manipulation framework)**,基于**多智能体大模型(multi-agent large models)** 协同
- **主动空间大脑(Active Spatial Brain)** 模块负责主动感知空间场景、任务规划和子任务分解
- **泛化动作小脑(Generalizable Action Cerebellum)** 模块根据大脑决策生成可执行机器人动作,无需任务专用真实数据
- **首次** 将**多智能体大模型(multi-agent large models)** 的感知与生成能力结合用于人形全身操作
- **主动空间感知(active spatial perception)** 机制:不同于被动感知,大脑模块主动探索场景并做出空间决策
- **零样本泛化(zero-shot generalization)**:小脑模块无需任务特定真实数据即可生成动作,突破数据稀缺瓶颈
- 为**人形机器人全身操作** 领域提供了一种**通用可泛化框架(generalizable framework)**
- 设计了**空间操作基准任务集(spatial manipulation benchmark)**,从空间感知和真实任务性能两个维度评估
- 实验证明框架在多种任务和环境中同时具备强**空间理解(spatial understanding)** 和**动作执行鲁棒性**