DSSP: 全历史编码的扩散状态空间策略

📝 论文摘要

基于扩散的模仿学习在机器人操作中展现出巨大潜力。然而，现有的大多数策略仅以当前观测或短时间窗口的近期观测为条件，限制了其在长时程任务中解决历史依赖歧义的能力。为此，我们提出DSSP——一种基于历史条件的分层状态空间扩散策略，能够实现对机器人操作的高效全历史条件建模。通过利用状态空间模型的连续序列建模特性，我们的历史编码器可将整个观测流有效压缩为紧凑的上下文表示。为确保该上下文保留关于未来状态演化的关键信息，编码器通过动力学感知辅助训练目标进行优化。这种高层上下文表示随后与近期状态观测无缝融合，形成用于动作生成的分层条件机制。此外，为保持架构一致性并最小化GPU内存开销，我们同样采用状态空间模型实例化扩散主干网络。在仿真基准测试和实际机器人操作任务上的大量实验表明，DSSP以显著更小的模型尺寸取得了最先进性能，并充分验证了分层条件机制在随历史长度增加时捕获关键信息的卓越效率。

🎯 研究动机

- 现有**扩散模仿学习(diffusion-based imitation learning)** 策略仅依赖当前观测或短时间窗口，无法处理长时任务中的**历史依赖模糊性(history-dependent ambiguities)** - 机器人操作中长时任务需要全历史信息来消除歧义，但现有方法缺乏高效的全历史条件机制 - 研究背景：随着机器人操作任务复杂度增加，**长时程(long-horizon)** 任务对历史信息的利用成为关键瓶颈

🔧 核心方法

- 提出**DSSP(Diffusion State Space Policy)**，利用**状态空间模型(State Space Models, SSMs)** 的连续序列建模能力构建**历史编码器(history encoder)**，将整个观测流压缩为紧凑的上下文表示 - 设计**动力学感知辅助训练目标(dynamics-aware auxiliary training objective)**，优化历史编码器以保留未来状态演化的关键信息 - 采用**分层条件机制(hierarchical conditioning mechanism)**，将高层上下文表示与近期状态观测融合以生成动作 - 扩散骨干网络本身也使用**SSM实例化(SSM-instantiated diffusion backbone)**，保持架构一致性并减少GPU内存开销

💡 核心创新

- **首次将SSM用于全历史条件扩散策略**，实现高效、紧凑的全历史编码，相比于仅用RNN或Transformer更节省资源 - **动力学感知目标** 创新性地将编码器优化与未来状态预测关联，确保上下文表示保留动态相关性 - **架构一致性**：扩散骨干与历史编码器均使用SSM，避免了混合架构的兼容性问题，降低了内存占用 - **模型效率**：在更小模型尺寸下达到**SOTA(state-of-the-art)** 性能，且随历史长度增加性能优势更显著

🏆 总体贡献

- 为解决长时机器人操作中的**历史依赖模糊性** 提供了全新的**全历史编码范式(full-history encoding paradigm)** - 在多个仿真基准和真实世界操作任务上验证了方法有效性，实现了**SOTA性能** 且模型参数更少 - 提出了**分层条件机制** 与**SSM统一架构** 的设计思路，为后续扩散策略研究提供了高效、可扩展的基线

DSSP: 全历史编码的扩散状态空间策略
DSSP: Diffusion State Space Policy with Full-History Encoding

📊 核心分析

DSSP: 全历史编码的扩散状态空间策略 DSSP: Diffusion State Space Policy with Full-History Encoding

📊 核心分析

DSSP: 全历史编码的扩散状态空间策略
DSSP: Diffusion State Space Policy with Full-History Encoding