- 真实世界的精细操作(特别是双手操纵)需要低延迟控制和稳定的视觉定位,但收集大规模数据成本高昂,有限的演示可能导致定位漂移。
- 现有方法如 **动作分块策略(action-chunking)** ACT 虽然低延迟、数据高效,但缺乏显式空间一致性;**扩散策略(Diffusion Policy)** 虽然表达能力更强,但迭代采样引入延迟;**视觉-语言-动作(Vision-Language-Action, VLA)** 和基于体素的方法增强泛化但计算成本高。
- 需要一种既能保持低延迟推理,又能提升视觉-动作映射稳定性和抗漂移能力的方法,尤其适用于数据受限的精细操作场景。
- 提出**多阶段空间注意力模块(multistage spatial attention module)**,从视觉特征中提取稳定的 2D 注意力点作为局部空间模态,用于动作预测。
- 在 **ACT(动作分块策略)** 基础上集成预训练的 **ResNet** 视觉先验,通过多阶段注意力提取任务相关的 2D 关键点。
- 引入**自监督时间对齐损失(self-supervised temporal alignment loss)**,将预测的注意力序列与未来帧的视觉特征对齐,无需关键点标注即可抑制漂移。
- **多阶段空间对齐机制**:首次将多阶段注意力与时间对齐损失相结合,在低延迟框架下实现了稳定的 2D 视觉跟踪。
- **自监督漂移抑制**:无需人工标注关键点,通过预测注意力序列与未来视觉特征的对齐目标,有效缓解有限数据下的视觉-动作映射漂移。
- **保持低延迟**:相较于扩散策略等迭代采样方法,该模块直接基于 ACT 的分块预测架构,不增加额外推理延迟。
- 为双手精细操作提供了一种**稳定低延迟的控制范式**,在 ALOHA 平台上的模拟和真实实验中验证了任务成功率、注意漂移、推理延迟及抗干扰能力的提升。
- 提出了一种**可复用的2D空间注意力模块**,可作为插件集成到现有的动作分块策略中,增强空间一致性。
- 通过自监督的时间对齐损失,降低了数据收集成本,推动了少样本精细操作中视觉定位稳定性的研究。