- 解决了**机器人模仿学习** 中因**观测别名(observation aliasing)** 导致的**跨动作块冲突(inter-chunk conflict)** 和不稳定执行问题
- 现有**帧条件VLA(frame-conditioned VLA)** 策略仅依赖当前观测和指令,在部分可观测性下会重新采样不同意图,导致相邻重规划步之间动作不一致
- 研究背景:机器人模仿数据具有多模态性,相似视觉-语言观测可能对应不同短视意图、任务阶段或近期上下文
- 提出**IntentVLA** 框架,使用**历史条件(history-conditioned)** 方式将近期视觉观测编码为紧凑的**短视意图表示(short-horizon intent representation)**
- 利用该意图表示对**动作块生成(chunk generation)** 进行条件控制,确保跨步意图一致性
- 构建**AliasBench** 基准,包含12个任务,在**RoboTwin2** 上提供匹配的训练数据和评估环境,专门隔离短视观测别名问题
- **首创性**:首次将**短视意图建模(short-horizon intent modeling)** 引入**视觉-语言-动作(VLA)** 框架,通过历史条件编码解决观测别名导致的意图漂移
- **基准创新**:提出**AliasBench**,首个专门针对机器人操作中短视别名问题的混淆感知基准,公平隔离评估条件
- **性能提升**:在AliasBench、SimplerEnv、LIBERO、RoboCasa等基准上显著提升**滚动稳定性(rollout stability)**,超越强VLA基线
- 为**机器人操作模仿学习** 提供了一种**历史条件VLA范式**,有效缓解多模态别名下的动作冲突
- 在多个标准基准(LIBERO、RoboCasa等)上达到**更优的滚动稳定性**,验证了方法的泛化能力
- 开源**AliasBench** 基准和匹配数据集,促进社区对观测别名问题的系统研究和复现