该论文旨在解决机器人模仿学习中的动作表示问题。研究背景是:在上下文模仿学习(in-context imitation learning)中,如何有效地将连续的动作空间离散化为有意义的动作标记(action tokens),以提升学习效率和性能。
论文提出了一种新颖的分层时空动作标记器(Hierarchical Spatiotemporal Action Tokenizer, HiST-AT)。具体方法包括:
- 采用分层向量量化(hierarchical vector quantization),包含两个连续层级:
1. 底层将输入动作分配到细粒度子簇(fine-grained subclusters)
2. 高层将细粒度子簇进一步映射到粗粒度簇(clusters)
- 扩展为时空版本,同时利用空间和时间线索:
- 进行多级聚类(multi-level clustering)
- 同时重建输入动作及其关联的时间戳(timestamps)
论文的核心创新点包括:
- **分层动作标记架构**:首次提出分层向量量化方法用于动作标记,相比非分层方法能更好地捕捉动作的层次结构
- **时空联合建模**:将纯空间的动作重建扩展为同时恢复动作和时间戳的时空建模,充分利用了动作序列的时序信息
- **性能优势**:在多个仿真和真实机器人操作基准测试中取得了最先进的(state-of-the-art)性能
论文对该领域的整体贡献是:
- 提出了HiST-AT这一新颖的分层时空动作标记器,为机器人模仿学习提供了更有效的动作表示方法
- 通过系统实验验证了分层方法和时空建模的有效性,在多个基准测试中确立了新的性能标杆
- 为上下文模仿学习领域提供了新的技术思路,推动了动作离散化和表示学习的发展