- 现有**训练时实时分块(training-time Real-time chunking, RTC)** 使用二进制前缀掩码将所有非前缀词元视为完全无约束,导致对**异步执行(asynchronous execution)** 的建模不足
- 在重叠动作中,早期动作已被固定,后期动作虽可编辑但应保持与先前计划接近,现有方法无法体现这一渐进约束
- 研究背景:**实时分块(Real-time chunking, RTC)** 允许分块动作策略在推理延迟下运行,但训练时RTC的简单掩码限制了动作平滑性
- 提出**Soft RTC**,基于**动作先验去噪(action-prior denoising)** 的训练时RTC泛化方法
- 构造**部分去噪状态下的损坏重叠词元(corrupted overlap tokens from partially denoised states)** 代替纯噪声
- 在推理时通过**轻量级词元级混合规则(token-wise blending rule)** 注入对齐的先前块作为相同先验
- **首创性**:首次将**动作先验去噪(action-prior denoising)** 引入训练时实时分块,实现对重叠动作的**渐进式约束(progressive constraint)**
- **平滑性提升**:相比硬训练时RTC,中等窗口下**高延迟动作增量(high-delay action delta)** 和**急动度(jerk)** 分别降低9.1%和9.6%
- **效率保持**:保持近朴素运行时,避免了推理时RTC基线的额外开销
- 为**实时动作分块(real-time action chunking)** 领域提供了一种更平滑、更鲁棒的训练范式
- 在12个Kinetix关卡上达到接近硬训练时RTC的求解率(0.809 vs. 0.815),同时显著降低动作抖动
- 通过真实机器人分拣实验验证了**训练时RTC** 的有效性,并证明**Soft RTC** 在**指令加速度有限差分指标(commanded-action finite-difference metrics)** 上最优