- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型主要依赖文本指令,在复杂场景中存在多个相似物体时难以解决空间模糊性问题
- 机器人操作需要更直观、更精准的交互方式,手势作为一种自然指令模态尚未被充分挖掘
- 研究背景:通用机器人操作需要统一感知与动作,但当前方法在目标接地(target grounding)方面存在不足
- 提出**GesVLA** 模型,将手势特征直接编码到潜在空间中,使手势同时参与高层推理和低层动作生成
- 采用**双VLM架构(dual-VLM architecture)**,实现手势表示与动作策略的紧耦合
- 构建可扩展的手势数据生成管线:将手部模型渲染到真实场景图像上,减少**仿真到现实(sim-to-real)** 视觉差异
- 采用两阶段训练策略,分别赋予模型手势感知能力和动作预测能力
- **首创性**:首次将手势作为并行指令模态融入VLA模型,解决空间模糊性问题
- **架构创新**:双VLM架构实现手势表示与动作策略的紧耦合,而非简单特征拼接
- **数据生成创新**:通过渲染手部模型到真实图像,生成多样运动模式和对应指向标注的数据,避免真实标注困难
- **训练策略**:两阶段训练分别学习手势感知和动作预测,提升模型鲁棒性
- 为机器人操作任务提供了一种新颖的**手势感知VLA范式(Gesture-aware VLA paradigm)**,显著提升复杂场景下的目标接地精度
- 在真实世界的多种机器人任务(如积木操作、产品挑选)上验证有效性,展示了优越的人机交互效率
- 提出可扩展的数据生成管线,助力后续研究减少仿真到现实的差距
- 开源项目页面和代码,促进社区复现与进一步研究