← 返回论文列表

IntentVLA:针对别名机器人操作的短视界意图建模
IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

作者: Shijie Lian, Bin Yu, Xiaopeng Lin 等11人
arXiv: 2605.14712v1
分类: cs.RO, cs.AI, cs.CL, cs.CV
📝 论文摘要
机器人模仿数据通常是多模态的:由于人类演示者具有不同的短期意图、任务阶段或近期上下文,相似视觉-语言观测可能跟随不同的动作块。现有的帧条件VLA策略仅依据当前观测和指令推断每个块,因此在部分可观测性下,它们可能在相邻重规划步骤中重新采样不同意图,导致跨块冲突和执行不稳定。我们提出IntentVLA,一种历史条件VLA框架,它将近期视觉观测编码为紧凑的短期意图表示,并以此作为块生成的条件。我们还引入AliasBench,一个基于RoboTwin2的12任务模糊感知基准,配有匹配的训练数据和评估环境,以隔离短期观测混淆。在AliasBench、SimplerEnv、LIBERO和RoboCasa上,IntentVLA提升了展开稳定性,并优于强基线VLA方法。

📊 核心分析

🎯 研究动机
- 解决了**机器人模仿学习** 中因**观测别名(observation aliasing)** 导致的**跨动作块冲突(inter-chunk conflict)** 和不稳定执行问题 - 现有**帧条件VLA(frame-conditioned VLA)** 策略仅依赖当前观测和指令,在部分可观测性下会重新采样不同意图,导致相邻重规划步之间动作不一致 - 研究背景:机器人模仿数据具有多模态性,相似视觉-语言观测可能对应不同短视意图、任务阶段或近期上下文
🔧 核心方法
- 提出**IntentVLA** 框架,使用**历史条件(history-conditioned)** 方式将近期视觉观测编码为紧凑的**短视意图表示(short-horizon intent representation)** - 利用该意图表示对**动作块生成(chunk generation)** 进行条件控制,确保跨步意图一致性 - 构建**AliasBench** 基准,包含12个任务,在**RoboTwin2** 上提供匹配的训练数据和评估环境,专门隔离短视观测别名问题
💡 核心创新
- **首创性**:首次将**短视意图建模(short-horizon intent modeling)** 引入**视觉-语言-动作(VLA)** 框架,通过历史条件编码解决观测别名导致的意图漂移 - **基准创新**:提出**AliasBench**,首个专门针对机器人操作中短视别名问题的混淆感知基准,公平隔离评估条件 - **性能提升**:在AliasBench、SimplerEnv、LIBERO、RoboCasa等基准上显著提升**滚动稳定性(rollout stability)**,超越强VLA基线
🏆 总体贡献
- 为**机器人操作模仿学习** 提供了一种**历史条件VLA范式**,有效缓解多模态别名下的动作冲突 - 在多个标准基准(LIBERO、RoboCasa等)上达到**更优的滚动稳定性**,验证了方法的泛化能力 - 开源**AliasBench** 基准和匹配数据集,促进社区对观测别名问题的系统研究和复现