该论文旨在解决人形机器人长时程全身控制中敏捷性(agility)与稳定性(stability)难以兼顾的问题。研究背景是现有方法通常遵循两种范式:用于全局协调的耦合全身策略(coupled whole-body policies)和用于模块化精度的解耦策略(decoupled policies),但缺乏系统性的整合方法,导致在敏捷性、鲁棒性和精度之间存在难以调和的权衡(trade-off)。
论文提出了BAT框架,这是一个在线策略切换(online policy-switching)框架。其核心方法包括:
- 使用两个互补的全身强化学习(whole-body RL)控制器,并在不同运动情境下动态切换。
- 一个通过分层强化学习(hierarchical RL)学习的切换策略(switching policy),并辅以滑动时域策略预评估(sliding-horizon policy pre-evaluation)的专家指导。
- 一个选项感知的VQ-VAE(option-aware VQ-VAE),用于从离散运动令牌(token)序列预测选项偏好(option preference),以提升泛化能力。
- 通过置信度加权融合(confidence-weighted fusion)对两个模块的输出进行最终决策。
论文的核心创新点在于:
- 提出了一个新颖的在线策略切换框架,通过动态选择互补的控制器,系统性地解决了长时程全身控制中敏捷性与稳定性的平衡问题。
- 设计了结合分层RL与滑动时域预评估的切换策略学习机制,实现了基于运动上下文的智能决策。
- 引入了选项感知的VQ-VAE,将离散运动表示与选项预测相结合,增强了框架对未见任务的泛化能力。
- 与现有单一范式或简单组合的方法相比,该框架通过置信度融合机制,实现了两种范式优势的有机统一,而非简单折衷。
论文对该领域的整体贡献是:
- 提出了一个统一的框架BAT,首次系统性地整合了耦合与解耦控制范式的优势,实现了在长时程任务中兼具敏捷性、精确性和鲁棒性的全身行为。
- 在Unitree G1人形机器人上进行了广泛的仿真和实物实验,验证了该框架在多样化的长时程移动操作(loco-manipulation)任务中的优越性能,超越了现有方法。
- 为机器人动态、复杂的长时程控制任务提供了一种新的、可泛化的解决方案范式。