- 现有**自主系统(autonomous systems)** 在孤立或仿真环境中表现超人类,但在共享动态真实空间中仍然脆弱
- 根本原因在于主流**单智能体范式(single-agent paradigm)** 将其他参与者忽略或视为环境噪声,无法实现有效协调
- 研究背景:需要一种能够确保真实世界交互安全性的框架,以应对高速、高动态场景下的多机协同需求
- 提出基于**多智能体强化学习(multi-agent reinforcement learning, MARL)** 的框架,以高速四旋翼竞速作为高风险测试平台
- 采用**联赛式自对抗(league-based self-play)** 训练机制,让智能体与不同数量的竞争对手交互演化
- 智能体学习处理复杂**空气动力学交互(aerodynamic interactions)** 和策略性机动,包括主动避碰、超车以及应对**下洗气流(downwash)** 等物理效应
- **首次将MARL应用于高速四旋翼竞速**,实现超人类安全性与敏捷性的统一,而非仅靠孤立的**安全约束(safety constraints)**
- 通过**多样化人工智能体训练** 实现**零样本泛化(zero-shot generalization)** 到与人类的安全交互,无需专门的人机对抗数据
- 相比最先进的单智能体基线,在超过22 m/s的速度下将**碰撞率(collision rate)** 降低50%,同时击败冠军级人类飞行员
- 证明了**多智能体交互(multi-agent interaction)** 的严格需求是通往鲁棒机器人共存的路径,而非孤立的单智能体安全约束
- 在真实世界高速多机竞速任务中验证了MARL框架的有效性,提供了可复现的多媒体材料
- 为自主系统在共享动态空间中的安全、敏捷运作提供了新的范式,推动了多智能体强化学习在物理应用中的部署