BAT：通过在线策略切换实现长时程全身人形机器人控制的敏捷性与稳定性平衡

📝 论文摘要

尽管在控制、强化学习和模仿学习领域已取得显著进展，但构建一个能够实现敏捷、精确且鲁棒全身运动——尤其是在长时域任务中——的统一框架仍具挑战性。现有方法通常遵循两种范式：用于全局协调的耦合全身策略，以及用于模块化精度的解耦策略。然而，由于缺乏系统性的整合方法，敏捷性、鲁棒性与精确性之间的权衡问题仍未解决。本研究提出BAT框架，这是一种在线策略切换系统，通过动态选择两个互补的全身强化学习控制器，在不同运动场景中平衡敏捷性与稳定性。该框架包含两个互补模块：一是通过分层强化学习结合滑动时域策略预评估专家指导训练的切换策略，二是能够从离散运动标记序列预测选项偏好以提升泛化能力的选项感知VQ-VAE。最终决策通过两个模块的置信度加权融合获得。在宇树G1人形机器人上进行的大量仿真与实物实验表明，BAT能够实现多功能的长时域移动操控任务，并在多样化任务中超越现有方法。

🎯 研究动机

该论文旨在解决人形机器人长时程全身控制中敏捷性(agility)与稳定性(stability)难以兼顾的问题。研究背景是现有方法通常遵循两种范式：用于全局协调的耦合全身策略(coupled whole-body policies)和用于模块化精度的解耦策略(decoupled policies)，但缺乏系统性的整合方法，导致在敏捷性、鲁棒性和精度之间存在难以调和的权衡(trade-off)。

🔧 核心方法

论文提出了BAT框架，这是一个在线策略切换(online policy-switching)框架。其核心方法包括： - 使用两个互补的全身强化学习(whole-body RL)控制器，并在不同运动情境下动态切换。 - 一个通过分层强化学习(hierarchical RL)学习的切换策略(switching policy)，并辅以滑动时域策略预评估(sliding-horizon policy pre-evaluation)的专家指导。 - 一个选项感知的VQ-VAE(option-aware VQ-VAE)，用于从离散运动令牌(token)序列预测选项偏好(option preference)，以提升泛化能力。 - 通过置信度加权融合(confidence-weighted fusion)对两个模块的输出进行最终决策。

💡 核心创新

论文的核心创新点在于： - 提出了一个新颖的在线策略切换框架，通过动态选择互补的控制器，系统性地解决了长时程全身控制中敏捷性与稳定性的平衡问题。 - 设计了结合分层RL与滑动时域预评估的切换策略学习机制，实现了基于运动上下文的智能决策。 - 引入了选项感知的VQ-VAE，将离散运动表示与选项预测相结合，增强了框架对未见任务的泛化能力。 - 与现有单一范式或简单组合的方法相比，该框架通过置信度融合机制，实现了两种范式优势的有机统一，而非简单折衷。

🏆 总体贡献

论文对该领域的整体贡献是： - 提出了一个统一的框架BAT，首次系统性地整合了耦合与解耦控制范式的优势，实现了在长时程任务中兼具敏捷性、精确性和鲁棒性的全身行为。 - 在Unitree G1人形机器人上进行了广泛的仿真和实物实验，验证了该框架在多样化的长时程移动操作(loco-manipulation)任务中的优越性能，超越了现有方法。 - 为机器人动态、复杂的长时程控制任务提供了一种新的、可泛化的解决方案范式。

BAT：通过在线策略切换实现长时程全身人形机器人控制的敏捷性与稳定性平衡
BAT: Balancing Agility and Stability via Online Policy Switching for Long-Horizon Whole-Body Humanoid Control

📊 核心分析

BAT：通过在线策略切换实现长时程全身人形机器人控制的敏捷性与稳定性平衡 BAT: Balancing Agility and Stability via Online Policy Switching for Long-Horizon Whole-Body Humanoid Control

📊 核心分析

BAT：通过在线策略切换实现长时程全身人形机器人控制的敏捷性与稳定性平衡
BAT: Balancing Agility and Stability via Online Policy Switching for Long-Horizon Whole-Body Humanoid Control