← 返回论文列表

AT-VLA:自适应触觉注入以增强视觉-语言-动作模型中的反馈反应
AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models

作者: Xiaoqi Li, Muhe Cai, Jiadong Xu 等8人
arXiv: 2605.07308v1
分类: cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型显著提升了机器人在执行多样化任务时的能力,但在需要精确物理交互的接触丰富操作场景中仍面临挑战。为解决这一局限,近期研究尝试在下游任务中引入触觉信号,使预训练VLA能够解读触觉反馈。然而,在微调阶段引入预训练阶段极少出现的新模态,可能破坏VLA的预训练能力。此外,VLA固有的推理速度较慢阻碍了实时响应,并限制了触觉反馈在动作调整中的有效利用。为克服这些挑战,我们提出自适应触觉视觉-语言-动作(AT-VLA)模型,引入一种新颖的自适应触觉注入机制。该机制动态决定触觉注入的适当时机和位置,仅在其对动作生成有显著贡献时进行注入,从而最大限度减少对预训练表示的干扰。此外,为实现快速准确的触觉响应,我们提出触觉反应双流机制,将感知处理解耦为用于低频感知推理的慢速视觉-语言流和用于高频物理交互理解的快速触觉控制流,在0.04秒内实现实时闭环响应。实际实验充分验证了AT-VLA在接触丰富操作任务中的有效性。项目页面:https://sites.google.com/view/at-vla。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在接触密集型操作中表现不佳,需要精确物理交互 - 引入触觉信号进行微调时,新模态会破坏VLA的预训练能力,产生干扰 - VLA模型推理速度慢,无法实现实时触觉反馈响应,限制了动作调整的有效性
🔧 核心方法
- 提出**自适应触觉注入(Adaptive Tactile Injection)** 机制,动态决定触觉注入的时机和位置,仅在对动作生成有显著贡献时注入,减少对预训练表示的干扰 - 设计**触觉反应双流(Tactile Reaction Dual-Stream)** 机制,将感知解耦为**慢速视觉-语言流(slow visual-language stream)** 进行低频感知推理,和**快速触觉控制流(fast tactile control stream)** 进行高频物理交互理解 - 实现实时闭环响应,延迟低于0.04秒
💡 核心创新
- **自适应注入**:首次提出动态选择触觉注入的时机和位置,避免新模态对预训练能力的破坏 - **双流解耦架构**:将感知与推理分离,实现高频触觉控制的实时性,同时保持视觉-语言流的低频推理能力 - **实时闭环**:触觉反应速度达到0.04秒,显著提升接触密集型操作的响应效率
🏆 总体贡献
- 为VLA模型在接触密集型操作中提供了一种有效的触觉融合范式,平衡了预训练能力保持与实时反馈 - 提出的**AT-VLA** 框架在真实世界实验中验证了有效性,适用于需要精确物理交互的机器人任务 - 开源项目页面,促进社区复现与后续研究