← 返回论文列表

面向漂浮垃圾捕获的自主水面艇强化学习控制中集成感知的仿真到现实迁移与鲁棒性评估
Sim-to-Real Transfer and Robustness Evaluation of Reinforcement Learning Control with Integrated Perception on an ASV for Floating Waste Capture

作者: Luis F. W. Batista, Stéphanie Aravecchia, Cédric Pradalier
arXiv: 2605.02529v1
分类: cs.RO
📝 论文摘要
用于浮渣清除的自主水面船只在变化的水动力学、外部扰动以及具有挑战性的水面感知条件下运行。我们提出了一种经过现场验证的系统,该系统结合了基于相机的偏振感知和轻量级基于深度强化学习的控制器,用于浮渣检测和捕获。相机检测结果被转换为水面目标点,并由一个完全在仿真中训练并直接部署在改装后的自主水面船只平台上的控制器进行跟踪。我们的主要贡献是一种从仿真到现实的测试方法论,该方法将两阶段仿真协议与旨在模拟真实相机行为的感知抽象模块相结合,从而实现可重复的现场试验以及对仿真到现实差距的明确评估。我们在匹配的仿真和现场实验中应用该框架,涵盖14种扰动机制,以揭示故障模式并评估鲁棒性。结果显示厘米级的终端精度,并在评估的扰动条件下表现出稳健的控制性能。性能下降的主要来源是执行机构模型保真度不足。我们还展示了该系统在实际条件下使用真实相机检测进行搜索和捕获的应用,覆盖面积高达450平方米。该研究提炼了可靠迁移的实践教训,包括提高执行机构模型保真度、有针对性的领域随机化,以及跨模块的延迟和时间戳的谨慎管理,同时指出了尚存的挑战。

📊 核心分析

🎯 研究动机
- 解决**自主水面船(Autonomous Surface Vessel, ASV)** 在漂浮垃圾清理中面临的**水动力学变化、外部干扰、水面感知困难** 等问题 - 现有**仿真到真实(Sim-to-Real)** 迁移方法缺乏可重复的现场试验和系统性的**鲁棒性评估(robustness evaluation)** 框架 - 研究背景:**强化学习(Reinforcement Learning, RL)** 控制策略在仿真中训练后直接部署到真实平台存在显著的**仿真-真实差距(sim-to-real gap)**,亟需量化该差距并识别失败模式
🔧 核心方法
- 提出**两阶段仿真协议(two-stage simulation protocol)**,结合**感知抽象模块(perception abstraction module)**,该模块模拟真实相机行为,将检测结果转换为水面目标点 - 使用**轻量级深度强化学习(Deep Reinforcement Learning, DRL)** 控制器,完全在仿真中训练,并直接部署到改装的ASV平台上 - 在14种干扰条件下进行**匹配的仿真与实地实验(matched simulation and field experiments)**,系统评估鲁棒性并暴露失败模式
💡 核心创新
- **首创性**:提出一种**仿真到真实测试方法论(sim-to-real testing methodology)**,包含两阶段仿真和感知抽象模块,实现了对**仿真-真实差距(sim-to-real gap)** 的显式评估 - **方法独特**:通过**感知抽象模块(perception abstraction module)** 模拟真实相机行为,使得仿真实验可复现且能与实地实验直接对比 - **系统性评估**:在14种干扰条件下进行匹配实验,首次系统性地暴露了**执行器模型保真度(actuation-model fidelity)** 不足是主要退化来源
🏆 总体贡献
- 提供了一套**现场验证的完整系统**,结合**偏振感知(polarimetric perception)** 与DRL控制,实现了漂浮垃圾的厘米级终端精度捕获 - 总结了**可靠转移的实用经验**,包括改进执行器模型保真度、**目标域随机化(targeted domain randomization)**、延迟与时间戳管理等 - 在高达**450 m²** 的真实水域中展示了搜索-捕获应用,为**自主水面船(ASV)** 领域的仿真到真实迁移提供了基准评估框架