← 返回论文列表

MSACT:用于稳定低延迟精细操作的多阶段空间对齐
MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation

作者: Xianbo Cai, Hideyuki Ichiwara, Masaki Yoshikawa 等4人
arXiv: 2605.00475v1
分类: cs.RO, cs.CV
📝 论文摘要
真实世界中的精细操作,尤其是双臂精细操作,通常需要低延迟控制和稳定的视觉定位,而大规模数据采集成本高昂,有限的数据样本可能导致定位漂移。现有方法在不同方面做出了权衡:基于动作分块的策略(如ACT)能够实现低延迟执行和数据高效性,但依赖缺乏显式空间一致性的密集视觉特征;生成式方法(如扩散策略)提升了表达能力,但可能引入迭代采样延迟;视觉-语言-动作及基于体素的方法增强了泛化能力和几何基础,但需要更高的计算成本和系统复杂度。我们提出了一种多阶段空间注意力模块,能够提取稳定的二维注意力点,并借助时间对齐损失联合预测未来的注意力序列。基于ACT和预训练的ResNet视觉先验,多阶段注意力模块提取任务相关的二维注意力点作为动作预测的局部空间模态。为保持一致的目标跟踪,我们引入了一个自监督目标,将预测的注意力序列与未来帧的视觉特征对齐,从而在无需关键点标注的情况下抑制漂移,并提升有限数据下视觉到动作映射的稳定性。在ALOHA双臂平台上进行的仿真和真实世界精细操作实验中,评估了任务成功率、注意力漂移、推理延迟以及对视觉干扰的鲁棒性。结果表明,在测试条件下,所提方法在保持低延迟推理的同时,提升了定位稳定性和任务性能。

📊 核心分析

🎯 研究动机
- 真实世界的精细操作(特别是双手操纵)需要低延迟控制和稳定的视觉定位,但收集大规模数据成本高昂,有限的演示可能导致定位漂移。 - 现有方法如 **动作分块策略(action-chunking)** ACT 虽然低延迟、数据高效,但缺乏显式空间一致性;**扩散策略(Diffusion Policy)** 虽然表达能力更强,但迭代采样引入延迟;**视觉-语言-动作(Vision-Language-Action, VLA)** 和基于体素的方法增强泛化但计算成本高。 - 需要一种既能保持低延迟推理,又能提升视觉-动作映射稳定性和抗漂移能力的方法,尤其适用于数据受限的精细操作场景。
🔧 核心方法
- 提出**多阶段空间注意力模块(multistage spatial attention module)**,从视觉特征中提取稳定的 2D 注意力点作为局部空间模态,用于动作预测。 - 在 **ACT(动作分块策略)** 基础上集成预训练的 **ResNet** 视觉先验,通过多阶段注意力提取任务相关的 2D 关键点。 - 引入**自监督时间对齐损失(self-supervised temporal alignment loss)**,将预测的注意力序列与未来帧的视觉特征对齐,无需关键点标注即可抑制漂移。
💡 核心创新
- **多阶段空间对齐机制**:首次将多阶段注意力与时间对齐损失相结合,在低延迟框架下实现了稳定的 2D 视觉跟踪。 - **自监督漂移抑制**:无需人工标注关键点,通过预测注意力序列与未来视觉特征的对齐目标,有效缓解有限数据下的视觉-动作映射漂移。 - **保持低延迟**:相较于扩散策略等迭代采样方法,该模块直接基于 ACT 的分块预测架构,不增加额外推理延迟。
🏆 总体贡献
- 为双手精细操作提供了一种**稳定低延迟的控制范式**,在 ALOHA 平台上的模拟和真实实验中验证了任务成功率、注意漂移、推理延迟及抗干扰能力的提升。 - 提出了一种**可复用的2D空间注意力模块**,可作为插件集成到现有的动作分块策略中,增强空间一致性。 - 通过自监督的时间对齐损失,降低了数据收集成本,推动了少样本精细操作中视觉定位稳定性的研究。