← 返回论文列表

关于风险感知域随机化对富含接触的基于采样的预测控制的惊人效果
On Surprising Effects of Risk-Aware Domain Randomization for Contact-Rich Sampling-based Predictive Control

作者: Sergio A. Esteban, Junheng Li, Vince Kurtz 等4人
arXiv: 2605.03290v1
分类: cs.RO, eess.SY
📝 论文摘要
域随机化(DR)在策略学习中广泛用于提高对建模误差的鲁棒性,但在接触丰富的基于采样的预测控制(SPC)中,其应用仍不充分——此类控制中推演质量对不确定性高度敏感。本研究以一项简单但具有代表性的推方块任务(Push-T)为切入点,首次探讨了预测采样中的风险感知域随机化,比较了随机化模型实例下的平均、乐观和悲观推演聚合方式。初步结果表明,域随机化不仅影响对模型误差的鲁棒性,还通过重塑接触产生动作周围的吸引域,改变了基于采样的优化器所面对的有效代价景观。这为探索模型不确定性下更合理的风险感知型接触丰富SPC开辟了潜在空间。视频链接:https://youtu.be/f1F0ALXxhSM

📊 核心分析

🎯 研究动机
- 接触丰富的**基于采样的预测控制(sampling-based predictive control, SPC)** 对模型不确定性高度敏感,但**领域随机化(domain randomization, DR)** 在该领域的研究尚属空白 - 现有DR主要应用于**策略学习(policy learning)**,缺乏对**接触丰富SPC** 中风险感知方法的系统探索 - 研究背景:DR在策略学习中被广泛用于提升鲁棒性,但在SPC中由于滚动质量高度依赖不确定性,其效果和机理尚未明确
🔧 核心方法
- 在简单但具代表性的**Push-T任务** 上,引入**风险感知领域随机化(risk-aware DR)**,对随机模型实例进行**滚动采样(rollout)** - 比较三种**滚动聚合(rollout aggregation)** 策略:平均(mean)、乐观(optimistic)、悲观(pessimistic) - 通过分析不同聚合方式下的**成本景观(cost landscape)** 和**吸引域(basin of attraction)** 来评估DR对控制性能的影响
💡 核心创新
- **首次** 将**风险感知DR** 引入接触丰富SPC领域,填补了该交叉方向的研究空白 - 发现DR不仅影响对建模误差的鲁棒性,还通过**重塑吸引域(reshaping basin of attraction)** 改变采样优化器感知的有效成本景观,这一现象此前未被揭示 - 为未来在模型不确定性下设计**更合理的风险感知接触丰富SPC** 提供了初步的理论基础和实验证据
🏆 总体贡献
- 揭示了**风险感知DR** 在接触丰富SPC中具有意外效果,即通过影响成本景观结构来间接调控采样优化行为 - 在**Push-T** 基准任务上建立了**风险感知DR** 的对比实验框架,为后续研究提供了可复现的基线 - 开源实验视频(YouTube链接),促进社区理解与复现,推动**风险感知控制** 与**领域随机化** 的交叉研究