动态扰动下的以智能体为中心的视觉强化学习

📝 论文摘要

视觉强化学习旨在让智能体从视觉观察中学习策略，但其仍易受动态视觉扰动的影响，例如扰动类型不可预测的突变。为系统研究这一问题，我们引入了视觉退化控制套件（VDCS），该基准通过马尔可夫切换退化扩展了DeepMind控制套件，以模拟非平稳的真实世界扰动。在VDCS上的实验表明，现有方法的性能严重下降。我们通过信息论分析从理论上证明，这种失败源于基于重构的目标会不可避免地将扰动伪影纠缠到潜在表征中。为缓解这一负面影响，我们提出以智能体为中心的观测与混合专家模型（ACO-MoE），以增强视觉强化学习对抗扰动的鲁棒性。该框架利用独特的以智能体为中心的恢复专家，实现从扰动中恢复及任务相关前景提取，从而在RL智能体处理前将感知与扰动解耦。在VDCS上的大量实验表明，我们的ACO-MoE优于强基线方法，在具有挑战性的马尔可夫切换扰动下恢复95.3%的纯净性能。此外，它在带有随机颜色和视频背景扰动的DMControl泛化任务中取得了最先进结果，展现出高水平的鲁棒性。

🎯 研究动机

- 视觉强化学习(visual reinforcement learning)容易受到**动态视觉扰动(dynamic visual perturbations)**的影响，如不可预测的扰动类型变化 - 现有方法在非平稳扰动下性能严重下降，缺乏系统研究 - 通过信息论(information-theoretic)分析证明，**基于重建的目标(reconstruction-based objectives)**会纠缠扰动伪影到潜在表示，导致失败

🔧 核心方法

- 提出**ACO-MoE(Agent-Centric Observations with Mixture-of-Experts)**框架，使用**智能体中心恢复专家(agent-centric restoration experts)**进行扰动恢复和任务相关前景提取 - 引入**专家混合(Mixture-of-Experts, MoE)**机制，将解耦感知与扰动处理分离后再由RL智能体处理 - 构建**VDCS(Visual Degraded Control Suite)**基准，通过**马尔可夫切换退化(Markov-switching degradations)**模拟非平稳真实世界扰动

💡 核心创新

- **首次从理论层面**证明动态扰动下性能下降的根本原因：重建目标纠缠扰动伪影于潜在表示 - **端到端解耦框架**：通过专门的恢复专家和任务相关前景提取，在RL处理前实现感知与扰动的解耦 - **高效鲁棒性**：在VDCS上恢复95.3%无扰动性能，并在DMControl Generalization上达到SOTA，验证了跨场景泛化能力

🏆 总体贡献

- 为动态扰动下的视觉强化学习提供了**理论分析和系统基准(VDCS)** - 提出**ACO-MoE框架**，有效提升视觉RL在非平稳扰动下的鲁棒性 - 在多个基准上超越强基线，证明方法的高鲁棒性和通用性，推动该领域发展

动态扰动下的以智能体为中心的视觉强化学习
Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations

📊 核心分析

动态扰动下的以智能体为中心的视觉强化学习 Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations

📊 核心分析

动态扰动下的以智能体为中心的视觉强化学习
Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations