IntentVLA：针对别名机器人操作的短视界意图建模

📝 论文摘要

机器人模仿数据通常是多模态的：由于人类演示者具有不同的短期意图、任务阶段或近期上下文，相似视觉-语言观测可能跟随不同的动作块。现有的帧条件VLA策略仅依据当前观测和指令推断每个块，因此在部分可观测性下，它们可能在相邻重规划步骤中重新采样不同意图，导致跨块冲突和执行不稳定。我们提出IntentVLA，一种历史条件VLA框架，它将近期视觉观测编码为紧凑的短期意图表示，并以此作为块生成的条件。我们还引入AliasBench，一个基于RoboTwin2的12任务模糊感知基准，配有匹配的训练数据和评估环境，以隔离短期观测混淆。在AliasBench、SimplerEnv、LIBERO和RoboCasa上，IntentVLA提升了展开稳定性，并优于强基线VLA方法。

🎯 研究动机

- 解决了**机器人模仿学习** 中因**观测别名(observation aliasing)** 导致的**跨动作块冲突(inter-chunk conflict)** 和不稳定执行问题 - 现有**帧条件VLA(frame-conditioned VLA)** 策略仅依赖当前观测和指令，在部分可观测性下会重新采样不同意图，导致相邻重规划步之间动作不一致 - 研究背景：机器人模仿数据具有多模态性，相似视觉-语言观测可能对应不同短视意图、任务阶段或近期上下文

🔧 核心方法

- 提出**IntentVLA** 框架，使用**历史条件(history-conditioned)** 方式将近期视觉观测编码为紧凑的**短视意图表示(short-horizon intent representation)** - 利用该意图表示对**动作块生成(chunk generation)** 进行条件控制，确保跨步意图一致性 - 构建**AliasBench** 基准，包含12个任务，在**RoboTwin2** 上提供匹配的训练数据和评估环境，专门隔离短视观测别名问题

💡 核心创新

- **首创性**：首次将**短视意图建模(short-horizon intent modeling)** 引入**视觉-语言-动作(VLA)** 框架，通过历史条件编码解决观测别名导致的意图漂移 - **基准创新**：提出**AliasBench**，首个专门针对机器人操作中短视别名问题的混淆感知基准，公平隔离评估条件 - **性能提升**：在AliasBench、SimplerEnv、LIBERO、RoboCasa等基准上显著提升**滚动稳定性(rollout stability)**，超越强VLA基线

🏆 总体贡献

- 为**机器人操作模仿学习** 提供了一种**历史条件VLA范式**，有效缓解多模态别名下的动作冲突 - 在多个标准基准（LIBERO、RoboCasa等）上达到**更优的滚动稳定性**，验证了方法的泛化能力 - 开源**AliasBench** 基准和匹配数据集，促进社区对观测别名问题的系统研究和复现

IntentVLA：针对别名机器人操作的短视界意图建模
IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

📊 核心分析

IntentVLA：针对别名机器人操作的短视界意图建模 IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

📊 核心分析

IntentVLA：针对别名机器人操作的短视界意图建模
IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation