健康条件化视觉-语言-动作模型用于故障感知机器人控制

📝 论文摘要

近年来，关于视觉语言动作（VLA）模型的研究迅速增长。尽管其中部分模型聚焦于检测、预防和恢复任务故障，但它们通常不处理机器人物理故障的适应性。在真实场景中，大多数机器人会以各种方式出现物理性能退化，例如关节退化、执行器故障或夹爪失灵。我们引入了故障感知（健康状况条件化）的VLA模型，该模型接收一个健康向量作为输入，该向量提供机器人关节运行角度和扭矩能力的信息，并调整其预测以使用退化关节完成任务。为此，我们在VLA-Adapter架构中注入了一个健康投影器模块，并在LIBERO环境[1]中收集的故障机器人数据上对其进行训练。我们在Libero-Spatial任务上收集了128段遥操作片段。结果表明，通过一个非常轻量级的添加，该模型能够学习在不同配置的退化关节下成功运行，而默认预训练的VLA-Adapter的Libero-Spatial-Pro模型则无法做到。代码和数据集即将在https://github.com/h-arslan/health-aware-vla上开源。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型主要关注任务失败检测与恢复，但未涉及机器人**物理故障(physical failures)** 的适应 - 真实场景中机器人常面临关节退化、执行器故障、夹爪无力等物理退化，现有方法无法处理 - 传统VLA模型在机器人部件退化时无法调整行为，导致任务失败

🔧 核心方法

- 提出**健康条件化VLA(Health-Conditioned VLA)**，将**健康向量(health vector)** 作为额外输入，包含机器人各关节的**操作角度(operation angle)** 和**扭矩能力(torque capability)** 信息 - 在**VLA-Adapter架构** 中注入一个**健康投影器(Health Projector)** 模块，将健康向量映射为与视觉语言特征兼容的表示 - 在**LIBERO环境** 中收集128个遥操作轨迹，模拟不同关节退化配置，用于训练健康投影器

💡 核心创新

- **首创性**：首次将**健康状态(health state)** 显式引入VLA模型，使模型能够感知并适应机器人自身的物理故障 - **轻量化**：仅添加一个轻量模块（健康投影器），无需重新训练整个VLA模型，即可实现退化关节下的任务执行 - **泛化能力**：在训练时未见的多种关节退化配置下，模型仍能成功完成任务，而预训练VLA-Adapter完全失效

🏆 总体贡献

- 为**机器人故障感知控制(malfunction-aware robot control)** 提供了一种新范式，将健康条件化融入**视觉-语言-动作(VLA)** 框架 - 通过公开数据集和代码（即将开源），促进了该领域的可复现研究与后续扩展 - 实验证明轻量适配即可显著提升VLA模型在机器人物理退化场景下的鲁棒性，具有实际应用价值

健康条件化视觉-语言-动作模型用于故障感知机器人控制
Health-Conditioned Vision-Language-Action Models for Malfunction-Aware Robot Control

📊 核心分析

健康条件化视觉-语言-动作模型用于故障感知机器人控制 Health-Conditioned Vision-Language-Action Models for Malfunction-Aware Robot Control

📊 核心分析

健康条件化视觉-语言-动作模型用于故障感知机器人控制
Health-Conditioned Vision-Language-Action Models for Malfunction-Aware Robot Control