AT-VLA：自适应触觉注入以增强视觉-语言-动作模型中的反馈反应

📝 论文摘要

视觉-语言-动作（VLA）模型显著提升了机器人在执行多样化任务时的能力，但在需要精确物理交互的接触丰富操作场景中仍面临挑战。为解决这一局限，近期研究尝试在下游任务中引入触觉信号，使预训练VLA能够解读触觉反馈。然而，在微调阶段引入预训练阶段极少出现的新模态，可能破坏VLA的预训练能力。此外，VLA固有的推理速度较慢阻碍了实时响应，并限制了触觉反馈在动作调整中的有效利用。为克服这些挑战，我们提出自适应触觉视觉-语言-动作（AT-VLA）模型，引入一种新颖的自适应触觉注入机制。该机制动态决定触觉注入的适当时机和位置，仅在其对动作生成有显著贡献时进行注入，从而最大限度减少对预训练表示的干扰。此外，为实现快速准确的触觉响应，我们提出触觉反应双流机制，将感知处理解耦为用于低频感知推理的慢速视觉-语言流和用于高频物理交互理解的快速触觉控制流，在0.04秒内实现实时闭环响应。实际实验充分验证了AT-VLA在接触丰富操作任务中的有效性。项目页面：https://sites.google.com/view/at-vla。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在接触密集型操作中表现不佳，需要精确物理交互 - 引入触觉信号进行微调时，新模态会破坏VLA的预训练能力，产生干扰 - VLA模型推理速度慢，无法实现实时触觉反馈响应，限制了动作调整的有效性

🔧 核心方法

- 提出**自适应触觉注入(Adaptive Tactile Injection)** 机制，动态决定触觉注入的时机和位置，仅在对动作生成有显著贡献时注入，减少对预训练表示的干扰 - 设计**触觉反应双流(Tactile Reaction Dual-Stream)** 机制，将感知解耦为**慢速视觉-语言流(slow visual-language stream)** 进行低频感知推理，和**快速触觉控制流(fast tactile control stream)** 进行高频物理交互理解 - 实现实时闭环响应，延迟低于0.04秒

💡 核心创新

- **自适应注入**：首次提出动态选择触觉注入的时机和位置，避免新模态对预训练能力的破坏 - **双流解耦架构**：将感知与推理分离，实现高频触觉控制的实时性，同时保持视觉-语言流的低频推理能力 - **实时闭环**：触觉反应速度达到0.04秒，显著提升接触密集型操作的响应效率

🏆 总体贡献

- 为VLA模型在接触密集型操作中提供了一种有效的触觉融合范式，平衡了预训练能力保持与实时反馈 - 提出的**AT-VLA** 框架在真实世界实验中验证了有效性，适用于需要精确物理交互的机器人任务 - 开源项目页面，促进社区复现与后续研究

AT-VLA：自适应触觉注入以增强视觉-语言-动作模型中的反馈反应
AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models

📊 核心分析

AT-VLA：自适应触觉注入以增强视觉-语言-动作模型中的反馈反应 AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models

📊 核心分析

AT-VLA：自适应触觉注入以增强视觉-语言-动作模型中的反馈反应
AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models