- 视觉强化学习(visual reinforcement learning)容易受到**动态视觉扰动(dynamic visual perturbations)**的影响,如不可预测的扰动类型变化
- 现有方法在非平稳扰动下性能严重下降,缺乏系统研究
- 通过信息论(information-theoretic)分析证明,**基于重建的目标(reconstruction-based objectives)**会纠缠扰动伪影到潜在表示,导致失败
- 提出**ACO-MoE(Agent-Centric Observations with Mixture-of-Experts)**框架,使用**智能体中心恢复专家(agent-centric restoration experts)**进行扰动恢复和任务相关前景提取
- 引入**专家混合(Mixture-of-Experts, MoE)**机制,将解耦感知与扰动处理分离后再由RL智能体处理
- 构建**VDCS(Visual Degraded Control Suite)**基准,通过**马尔可夫切换退化(Markov-switching degradations)**模拟非平稳真实世界扰动
- **首次从理论层面**证明动态扰动下性能下降的根本原因:重建目标纠缠扰动伪影于潜在表示
- **端到端解耦框架**:通过专门的恢复专家和任务相关前景提取,在RL处理前实现感知与扰动的解耦
- **高效鲁棒性**:在VDCS上恢复95.3%无扰动性能,并在DMControl Generalization上达到SOTA,验证了跨场景泛化能力
- 为动态扰动下的视觉强化学习提供了**理论分析和系统基准(VDCS)**
- 提出**ACO-MoE框架**,有效提升视觉RL在非平稳扰动下的鲁棒性
- 在多个基准上超越强基线,证明方法的高鲁棒性和通用性,推动该领域发展