← 返回论文列表

思维梦想家:通过潜在流形上的主动潜在干预释放想象力
Mind Dreamer: Untethering Imagination via Active Latent Intervention on Latent Manifolds

作者: Shaojun Xu, Xiaoling Zhou, Yihan Lin 等7人
arXiv: 2605.16030v1
分类: cs.LG, cs.RO
📝 论文摘要
基于模型的强化学习(MBRL)利用潜在想象实现样本效率,但始终受限于历史束缚:想象通常从观测状态初始化。这导致学习不对称性,即世界模型的流形发现速度超越策略的稀疏奖励优化。本文提出思维梦想家(Mind Dreamer, MD)框架,通过主动潜在干预(ALI)超越马尔可夫连续性。MD将发现过程重新定义为全局中继流形期望自由能(R-EFE)的最小化;通过从学习生成器 $s_0 \sim p_{gen}(\cdot)$ 而非历史缓冲区采样初始状态,MD利用对抗生成器合成非连续潜在跳跃,以此覆盖物理上合理但认知上具有挑战性的未知盲区。为解决这些空间断裂处的信用分配悖论,我们推导出中继价值函数(RVF)和中继不确定度函数(RUF)。这些势能函数将合成锚点视为反事实中间状态,通过原则性的贝尔曼形式传播实用价值和认知价值。值得注意的是,我们证明了跨越不连续性的不确定性传播需要二次折扣 $γ^2$,从而建立了形式化的认知视界。理论上,MD近似于一种方差最小化重要性采样器,该采样器扩展了流形的谱间隙,减少了对关键瓶颈状态的到达时间。实验上,MD在DeepMind控制套件上较DreamerV3实现了平均1.67倍加速,在稀疏奖励任务中达到8.8倍加速。

📊 核心分析

🎯 研究动机
- 现有**基于模型的强化学习(Model-Based Reinforcement Learning, MBRL)** 受限于**历史束缚(Historical Tethering)**,想象力仅从观测状态初始化,导致学习不对称 - 世界模型的**流形发现(manifold discovery)** 速度快于策略的**稀疏奖励优化(sparse-reward optimization)**,两者不匹配 - 需要一种方法突破**马尔可夫连续性(Markovian continuity)**,主动探索认知盲区
🔧 核心方法
- 提出**Mind Dreamer (MD)** 框架,核心是**主动潜在干预(Active Latent Intervention, ALI)**,通过从学习生成器采样初始状态 $s_0 \sim p_{gen}(\cdot)$ 而非历史经验池,生成非连续潜在跳跃 - 将发现过程建模为**全局中继流形期望自由能(Relay Manifold Expected Free Energy, R-EFE)** 的最小化 - 提出**中继值函数(Relay Value Function, RVF)** 和**中继不确定性函数(Relay Uncertainty Function, RUF)**,将合成锚点视为反事实中间状态,通过**贝尔曼形式(Bellman-style)** 传播实用性与认知性价值 - 证明不确定性在不连续空间传播需使用**二次折扣 $\gamma^2$**,建立**认识论视界(epistemic horizon)**
💡 核心创新
- **首创性**:首次将**主动潜在干预** 应用于MBRL,突破马尔可夫连续性,从学习分布而非历史缓冲采样初始状态 - **理论贡献**:严格证明不确定性跨不连续传播需要二次折扣 $\gamma^2$,形成正式的认识论视界 - **形式化框架**:通过**中继价值函数(RVF/RUF)** 解决空间断裂处的**信用分配悖论(credit assignment paradox)**,使生成器能合成物理可行但认知具挑战的状态 - **近似方差最小化重要性采样**:扩大流形谱间隙,减少到达关键瓶颈状态的命中时间
🏆 总体贡献
- 在**DeepMind Control Suite** 上达到平均 **1.67倍** 加速,**稀疏奖励任务** 中加速 **8.8倍**,显著提升样本效率 - 提供了一种**理论驱动的想象初始化** 新范式,将探索从被动历史依赖转为主动潜在干预 - 为**基于模型的强化学习** 中探索与信用分配难题提供了可证明的原理性解决方案 - 开源框架(隐含)促进社区在**潜在流形学习(latent manifold learning)** 和**反事实推理(counterfactual reasoning)** 方向的研究