← 返回论文列表

RAY-TOLD:基于射线的潜在动力学用于密集动态障碍物规避与TDMPC
RAY-TOLD: Ray-Based Latent Dynamics for Dense Dynamic Obstacle Avoidance with TDMPC

作者: Seungho Han, Seokju Lee, Jeonguk Kang
arXiv: 2604.27450v1
分类: cs.RO, cs.AI
📝 论文摘要
密集、动态的人群对自主移动机器人构成了持续挑战。纯反应式规划方法(如模型预测路径积分(MPPI)控制)因其有限预测范围,在复杂场景中常难以逃离局部极小值。为弥补这一不足,本文提出基于射线的面向任务潜在动力学(RAY-TOLD)混合控制架构,该架构将障碍物信息融入潜在动力学,并融合了基于物理的MPPI的鲁棒性与强化学习的长期预判能力。RAY-TOLD利用以激光雷达为中心的潜在动力学模型,将高维传感器数据编码为紧凑的状态表示,从而学习终端价值函数与策略先验。我们引入策略混合采样策略,通过从学习策略中生成的轨迹扩充MPPI候选种群,在保持运动学可行性的同时有效引导规划器趋向目标。在包含高密度动态障碍物的随机环境中的大量测试表明,该方法优于MPPI基线,降低了碰撞率。结果证实,将短视距的基于物理的轨迹生成与习得的长期意图相结合,显著提升了导航的可靠性与安全性。

📊 核心分析

🎯 研究动机
- 解决**密集动态人群(dense dynamic crowds)** 中自主移动机器人的导航难题 - 现有**纯反应式规划(purely reactive planning)** 方法(如**MPPI(模型预测路径积分)**)由于预测视野有限,容易陷入局部最小值 - 研究背景:高密度动态障碍物场景对机器人安全性和可靠性的持续挑战
🔧 核心方法
- 提出**RAY-TOLD** 混合控制架构,集成障碍物信息到**潜在动力学(latent dynamics)** 中 - 构建**LiDAR中心潜在动力学模型(LiDAR-centric latent dynamics model)**,将高维传感器数据编码为紧凑状态表示 - 学习**终端值函数(terminal value function)** 和**策略先验(policy prior)** - 引入**策略混合采样策略(policy mixture sampling strategy)**,用学习策略生成的轨迹增强**MPPI候选群体(MPPI candidate population)**
💡 核心创新
- **混合架构**:首次将**MPPI的物理鲁棒性** 与**强化学习的长期预见性** 融合在同一框架中 - **策略混合采样**:通过**学习策略先验(learned policy prior)** 引导MPPI采样,兼顾短期动力学可行性和长期目标引导 - **潜在动力学整合**:将障碍物信息直接编码进潜在动力学,提高高维传感器数据利用效率
🏆 总体贡献
- 为密集动态障碍物避障提供了一种**混合控制新范式(hybrid control paradigm)** - 在**随机高密度动态障碍物环境** 中显著降低碰撞率,优于纯MPPI基线 - 验证了**短期物理滚动(short-horizon physics-based rollouts)** 与**长期学习意图(long-horizon learned intent)** 结合的有效性,提升导航可靠性和安全性