- 现有**扩散模仿学习(diffusion-based imitation learning)** 策略仅依赖当前观测或短时间窗口,无法处理长时任务中的**历史依赖模糊性(history-dependent ambiguities)**
- 机器人操作中长时任务需要全历史信息来消除歧义,但现有方法缺乏高效的全历史条件机制
- 研究背景:随着机器人操作任务复杂度增加,**长时程(long-horizon)** 任务对历史信息的利用成为关键瓶颈
- 提出**DSSP(Diffusion State Space Policy)**,利用**状态空间模型(State Space Models, SSMs)** 的连续序列建模能力构建**历史编码器(history encoder)**,将整个观测流压缩为紧凑的上下文表示
- 设计**动力学感知辅助训练目标(dynamics-aware auxiliary training objective)**,优化历史编码器以保留未来状态演化的关键信息
- 采用**分层条件机制(hierarchical conditioning mechanism)**,将高层上下文表示与近期状态观测融合以生成动作
- 扩散骨干网络本身也使用**SSM实例化(SSM-instantiated diffusion backbone)**,保持架构一致性并减少GPU内存开销
- **首次将SSM用于全历史条件扩散策略**,实现高效、紧凑的全历史编码,相比于仅用RNN或Transformer更节省资源
- **动力学感知目标** 创新性地将编码器优化与未来状态预测关联,确保上下文表示保留动态相关性
- **架构一致性**:扩散骨干与历史编码器均使用SSM,避免了混合架构的兼容性问题,降低了内存占用
- **模型效率**:在更小模型尺寸下达到**SOTA(state-of-the-art)** 性能,且随历史长度增加性能优势更显著
- 为解决长时机器人操作中的**历史依赖模糊性** 提供了全新的**全历史编码范式(full-history encoding paradigm)**
- 在多个仿真基准和真实世界操作任务上验证了方法有效性,实现了**SOTA性能** 且模型参数更少
- 提出了**分层条件机制** 与**SSM统一架构** 的设计思路,为后续扩散策略研究提供了高效、可扩展的基线