思维梦想家：通过潜在流形上的主动潜在干预释放想象力

📝 论文摘要

基于模型的强化学习（MBRL）利用潜在想象实现样本效率，但始终受限于历史束缚：想象通常从观测状态初始化。这导致学习不对称性，即世界模型的流形发现速度超越策略的稀疏奖励优化。本文提出思维梦想家（Mind Dreamer, MD）框架，通过主动潜在干预（ALI）超越马尔可夫连续性。MD将发现过程重新定义为全局中继流形期望自由能（R-EFE）的最小化；通过从学习生成器 $s_0 \sim p_{gen}(\cdot)$ 而非历史缓冲区采样初始状态，MD利用对抗生成器合成非连续潜在跳跃，以此覆盖物理上合理但认知上具有挑战性的未知盲区。为解决这些空间断裂处的信用分配悖论，我们推导出中继价值函数（RVF）和中继不确定度函数（RUF）。这些势能函数将合成锚点视为反事实中间状态，通过原则性的贝尔曼形式传播实用价值和认知价值。值得注意的是，我们证明了跨越不连续性的不确定性传播需要二次折扣 $γ^2$，从而建立了形式化的认知视界。理论上，MD近似于一种方差最小化重要性采样器，该采样器扩展了流形的谱间隙，减少了对关键瓶颈状态的到达时间。实验上，MD在DeepMind控制套件上较DreamerV3实现了平均1.67倍加速，在稀疏奖励任务中达到8.8倍加速。

🎯 研究动机

- 现有**基于模型的强化学习(Model-Based Reinforcement Learning, MBRL)** 受限于**历史束缚(Historical Tethering)**，想象力仅从观测状态初始化，导致学习不对称 - 世界模型的**流形发现(manifold discovery)** 速度快于策略的**稀疏奖励优化(sparse-reward optimization)**，两者不匹配 - 需要一种方法突破**马尔可夫连续性(Markovian continuity)**，主动探索认知盲区

🔧 核心方法

- 提出**Mind Dreamer (MD)** 框架，核心是**主动潜在干预(Active Latent Intervention, ALI)**，通过从学习生成器采样初始状态 $s_0 \sim p_{gen}(\cdot)$ 而非历史经验池，生成非连续潜在跳跃 - 将发现过程建模为**全局中继流形期望自由能(Relay Manifold Expected Free Energy, R-EFE)** 的最小化 - 提出**中继值函数(Relay Value Function, RVF)** 和**中继不确定性函数(Relay Uncertainty Function, RUF)**，将合成锚点视为反事实中间状态，通过**贝尔曼形式(Bellman-style)** 传播实用性与认知性价值 - 证明不确定性在不连续空间传播需使用**二次折扣 $\gamma^2$**，建立**认识论视界(epistemic horizon)**

💡 核心创新

- **首创性**：首次将**主动潜在干预** 应用于MBRL，突破马尔可夫连续性，从学习分布而非历史缓冲采样初始状态 - **理论贡献**：严格证明不确定性跨不连续传播需要二次折扣 $\gamma^2$，形成正式的认识论视界 - **形式化框架**：通过**中继价值函数(RVF/RUF)** 解决空间断裂处的**信用分配悖论(credit assignment paradox)**，使生成器能合成物理可行但认知具挑战的状态 - **近似方差最小化重要性采样**：扩大流形谱间隙，减少到达关键瓶颈状态的命中时间

🏆 总体贡献

- 在**DeepMind Control Suite** 上达到平均 **1.67倍** 加速，**稀疏奖励任务** 中加速 **8.8倍**，显著提升样本效率 - 提供了一种**理论驱动的想象初始化** 新范式，将探索从被动历史依赖转为主动潜在干预 - 为**基于模型的强化学习** 中探索与信用分配难题提供了可证明的原理性解决方案 - 开源框架（隐含）促进社区在**潜在流形学习(latent manifold learning)** 和**反事实推理(counterfactual reasoning)** 方向的研究

思维梦想家：通过潜在流形上的主动潜在干预释放想象力
Mind Dreamer: Untethering Imagination via Active Latent Intervention on Latent Manifolds

📊 核心分析

思维梦想家：通过潜在流形上的主动潜在干预释放想象力 Mind Dreamer: Untethering Imagination via Active Latent Intervention on Latent Manifolds

📊 核心分析

思维梦想家：通过潜在流形上的主动潜在干预释放想象力
Mind Dreamer: Untethering Imagination via Active Latent Intervention on Latent Manifolds