- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在接触密集型操作中表现不佳,需要精确物理交互
- 引入触觉信号进行微调时,新模态会破坏VLA的预训练能力,产生干扰
- VLA模型推理速度慢,无法实现实时触觉反馈响应,限制了动作调整的有效性
- 提出**自适应触觉注入(Adaptive Tactile Injection)** 机制,动态决定触觉注入的时机和位置,仅在对动作生成有显著贡献时注入,减少对预训练表示的干扰
- 设计**触觉反应双流(Tactile Reaction Dual-Stream)** 机制,将感知解耦为**慢速视觉-语言流(slow visual-language stream)** 进行低频感知推理,和**快速触觉控制流(fast tactile control stream)** 进行高频物理交互理解
- 实现实时闭环响应,延迟低于0.04秒
- **自适应注入**:首次提出动态选择触觉注入的时机和位置,避免新模态对预训练能力的破坏
- **双流解耦架构**:将感知与推理分离,实现高频触觉控制的实时性,同时保持视觉-语言流的低频推理能力
- **实时闭环**:触觉反应速度达到0.04秒,显著提升接触密集型操作的响应效率
- 为VLA模型在接触密集型操作中提供了一种有效的触觉融合范式,平衡了预训练能力保持与实时反馈
- 提出的**AT-VLA** 框架在真实世界实验中验证了有效性,适用于需要精确物理交互的机器人任务
- 开源项目页面,促进社区复现与后续研究