通过随机解耦策略梯度的高效在线策略视觉强化学习

📝 论文摘要

我们提出了随机解耦策略梯度（SDPG），这是一种轻量级视觉强化学习方法，能够在单张NVIDIA RTX 4080 GPU上，于数小时内端到端地训练多样化的视觉运动控制策略。SDPG通过轨迹推演的随机扰动来估计策略梯度，所需批量渲染环境数量减少几个数量级，从而大幅降低了计算和内存开销。在视觉MuJoCo基准测试中，SDPG在训练时间、内存使用量和奖励方面均持续优于基线方法。最后，为了支持未来研究，我们引入了一套涵盖灵巧操作和挑战性运动的逼真视觉机器人基准测试套件，并在实际硬件上展示了有效的仿真到现实迁移。

🎯 研究动机

- 现有视觉强化学习方法计算和内存开销大，需要大量批渲染环境，难以在单个GPU上高效训练 - 训练时间过长，端到端视觉运动控制策略学习通常需要多天或大规模集群 - 缺乏兼顾效率与性能的轻量级on-policy方法，尤其是可迁移到真实机器人的方案

🔧 核心方法

- 提出**随机解耦策略梯度(stochastic decoupled policy gradient, SDPG)**，通过轨迹rollout的**随机扰动(random perturbations)** 来估计策略梯度 - 所需批渲染环境数量减少几个数量级，从而大幅降低计算和内存开销 - 采用**端到端(end-to-end)** 方式训练多样化的视觉运动控制策略

💡 核心创新

- **梯度估计范式创新**：首次将**随机扰动** 用于on-policy视觉RL的策略梯度估计，替代传统的大量rollout采集，极大减少环境交互需求 - **轻量高效训练**：在单张RTX 4080 GPU上仅需几小时完成训练，训练时间和内存使用均显著优于基线方法 - **sim-to-real迁移**：不仅在仿真基准上取得更好性能，还成功将策略迁移到真实机器人硬件，证明实际部署能力

🏆 总体贡献

- 为视觉强化学习领域提供了一种**高效、低资源** 的on-policy训练范式，显著降低计算门槛 - 在视觉MuJoCo基准测试中，SDPG在奖励、训练时间和内存使用上均达到**SOTA(state-of-the-art)** 性能 - 引入了一套逼真的视觉机器人基准测试套件，涵盖灵巧操作和挑战性运动，推动后续研究 - 展示了从仿真到真实机器人的**有效迁移( sim-to-real transfer)**，验证方法的实用价值

通过随机解耦策略梯度的高效在线策略视觉强化学习
Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient

📊 核心分析

通过随机解耦策略梯度的高效在线策略视觉强化学习 Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient

📊 核心分析

通过随机解耦策略梯度的高效在线策略视觉强化学习
Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient