- 现有**基于模型的强化学习(Model-Based Reinforcement Learning, MBRL)** 受限于**历史束缚(Historical Tethering)**,想象力仅从观测状态初始化,导致学习不对称
- 世界模型的**流形发现(manifold discovery)** 速度快于策略的**稀疏奖励优化(sparse-reward optimization)**,两者不匹配
- 需要一种方法突破**马尔可夫连续性(Markovian continuity)**,主动探索认知盲区
- 提出**Mind Dreamer (MD)** 框架,核心是**主动潜在干预(Active Latent Intervention, ALI)**,通过从学习生成器采样初始状态 $s_0 \sim p_{gen}(\cdot)$ 而非历史经验池,生成非连续潜在跳跃
- 将发现过程建模为**全局中继流形期望自由能(Relay Manifold Expected Free Energy, R-EFE)** 的最小化
- 提出**中继值函数(Relay Value Function, RVF)** 和**中继不确定性函数(Relay Uncertainty Function, RUF)**,将合成锚点视为反事实中间状态,通过**贝尔曼形式(Bellman-style)** 传播实用性与认知性价值
- 证明不确定性在不连续空间传播需使用**二次折扣 $\gamma^2$**,建立**认识论视界(epistemic horizon)**
- **首创性**:首次将**主动潜在干预** 应用于MBRL,突破马尔可夫连续性,从学习分布而非历史缓冲采样初始状态
- **理论贡献**:严格证明不确定性跨不连续传播需要二次折扣 $\gamma^2$,形成正式的认识论视界
- **形式化框架**:通过**中继价值函数(RVF/RUF)** 解决空间断裂处的**信用分配悖论(credit assignment paradox)**,使生成器能合成物理可行但认知具挑战的状态
- **近似方差最小化重要性采样**:扩大流形谱间隙,减少到达关键瓶颈状态的命中时间
- 在**DeepMind Control Suite** 上达到平均 **1.67倍** 加速,**稀疏奖励任务** 中加速 **8.8倍**,显著提升样本效率
- 提供了一种**理论驱动的想象初始化** 新范式,将探索从被动历史依赖转为主动潜在干预
- 为**基于模型的强化学习** 中探索与信用分配难题提供了可证明的原理性解决方案
- 开源框架(隐含)促进社区在**潜在流形学习(latent manifold learning)** 和**反事实推理(counterfactual reasoning)** 方向的研究