ParkourFormer：将预测监督和序列建模集成到跑酷运动中

📝 论文摘要

人形机器人跑酷要求运动策略协调全身动力学，以应对楼梯、间隙、斜坡和障碍物等快速变化的地形。现有的强化学习策略大部分是反应式的，直接将观测映射到动作，而不显式建模未来身体状态。这种建模在敏捷运动任务中变得至关重要，因为成功执行运动强烈依赖于预期即将到来的接触转换和身体动力学。我们提出ParkourFormer，一种基于Transformer的序列建模框架，将人形机器人运动重新构建为未来条件化的决策问题。当前机器人状态通过交叉注意力查询历史感觉运动轨迹，同时一个轻量级预测头预测短时域未来的本体感受状态。经监督信号训练的未来预测状态与时序特征融合以生成动作，从而使策略能够联合推理运动历史和预期的未来动力学。我们在包含楼梯、间隙、斜坡、粗糙地形和障碍穿越的多样化多地形人形机器人跑酷基准上评估ParkourFormer。仿真和真实人形机器人实验表明，ParkourFormer在极具挑战性的地形上平均穿越成功率达到93.85%，相比强MLP、基于MoE的MLP和原始Transformer基线模型最高提升42.73%，同时在所有地形类型上保持单一统一策略。这些结果表明，显式未来状态建模显著提升了敏捷全身运动的鲁棒性和泛化能力。

🎯 研究动机

- 解决了人形机器人跑酷(parkour)运动中现有**强化学习(reinforcement learning)** 策略过于反应式(reactive)的问题，缺乏对未来身体状态的显式建模 - 研究背景：跑酷需要快速跨越楼梯、间隙、斜坡、障碍等变化地形，成功执行运动取决于对即将发生的接触过渡和身体动力学的预期 - 现有MLP、MoE-based MLP和vanilla Transformer基线在复杂地形上成功率较低，亟需提升鲁棒性和泛化能力

🔧 核心方法

- 提出**ParkourFormer** 框架，一种基于Transformer的序列建模方法，将人形机器人运动重构为**未来条件决策(future-conditioned decision-making)** 问题 - 当前机器人状态通过**交叉注意力(cross-attention)** 机制查询历史传感器-运动轨迹(sensorimotor trajectories) - 使用轻量预测头(lightweight prediction head)预测短时未来本体感觉状态(proprioceptive states)，并通过监督信号训练 - 将预测的未来状态与时间特征融合生成动作，实现运动历史与预期未来动态的联合推理

💡 核心创新

- **显式未来状态建模**：首次在跑酷运动策略中引入显式的短时未来本体感觉预测，替代纯反应式映射，提升对接触转换和动力学的预判能力 - **序列建模与预测监督结合**：利用Transformer的交叉注意力融合历史轨迹，并通过监督学习训练预测头，使策略具备时序推理和前瞻能力 - **单一统一策略跨所有地形**：不同地形（楼梯、间隙、斜坡、粗糙地形、障碍）共享一个策略，无需切换模块，综合性能优于强MLP和MoE基线

🏆 总体贡献

- 为敏捷全身运动(agile whole-body locomotion)提出了一种**未来条件决策范式**，证明了显式未来状态建模能显著提升鲁棒性和泛化能力 - 在多样多地形人形机器人跑酷基准上达到**93.85%的平均穿越成功率**，相比基线提升高达42.73% - 在仿真和真实人形机器人上均验证了有效性，为高动态运动控制提供了新的序列建模框架

ParkourFormer：将预测监督和序列建模集成到跑酷运动中
ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

📊 核心分析

ParkourFormer：将预测监督和序列建模集成到跑酷运动中 ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

📊 核心分析

ParkourFormer：将预测监督和序列建模集成到跑酷运动中
ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion