- 解决了人形机器人跑酷(parkour)运动中现有**强化学习(reinforcement learning)** 策略过于反应式(reactive)的问题,缺乏对未来身体状态的显式建模
- 研究背景:跑酷需要快速跨越楼梯、间隙、斜坡、障碍等变化地形,成功执行运动取决于对即将发生的接触过渡和身体动力学的预期
- 现有MLP、MoE-based MLP和vanilla Transformer基线在复杂地形上成功率较低,亟需提升鲁棒性和泛化能力
- 提出**ParkourFormer** 框架,一种基于Transformer的序列建模方法,将人形机器人运动重构为**未来条件决策(future-conditioned decision-making)** 问题
- 当前机器人状态通过**交叉注意力(cross-attention)** 机制查询历史传感器-运动轨迹(sensorimotor trajectories)
- 使用轻量预测头(lightweight prediction head)预测短时未来本体感觉状态(proprioceptive states),并通过监督信号训练
- 将预测的未来状态与时间特征融合生成动作,实现运动历史与预期未来动态的联合推理
- **显式未来状态建模**:首次在跑酷运动策略中引入显式的短时未来本体感觉预测,替代纯反应式映射,提升对接触转换和动力学的预判能力
- **序列建模与预测监督结合**:利用Transformer的交叉注意力融合历史轨迹,并通过监督学习训练预测头,使策略具备时序推理和前瞻能力
- **单一统一策略跨所有地形**:不同地形(楼梯、间隙、斜坡、粗糙地形、障碍)共享一个策略,无需切换模块,综合性能优于强MLP和MoE基线
- 为敏捷全身运动(agile whole-body locomotion)提出了一种**未来条件决策范式**,证明了显式未来状态建模能显著提升鲁棒性和泛化能力
- 在多样多地形人形机器人跑酷基准上达到**93.85%的平均穿越成功率**,相比基线提升高达42.73%
- 在仿真和真实人形机器人上均验证了有效性,为高动态运动控制提供了新的序列建模框架