← 返回论文列表

健康条件化视觉-语言-动作模型用于故障感知机器人控制
Health-Conditioned Vision-Language-Action Models for Malfunction-Aware Robot Control

作者: Hüseyin Arslan, Özgür Erkent
arXiv: 2605.16056v1
分类: cs.RO
📝 论文摘要
近年来,关于视觉语言动作(VLA)模型的研究迅速增长。尽管其中部分模型聚焦于检测、预防和恢复任务故障,但它们通常不处理机器人物理故障的适应性。在真实场景中,大多数机器人会以各种方式出现物理性能退化,例如关节退化、执行器故障或夹爪失灵。我们引入了故障感知(健康状况条件化)的VLA模型,该模型接收一个健康向量作为输入,该向量提供机器人关节运行角度和扭矩能力的信息,并调整其预测以使用退化关节完成任务。为此,我们在VLA-Adapter架构中注入了一个健康投影器模块,并在LIBERO环境[1]中收集的故障机器人数据上对其进行训练。我们在Libero-Spatial任务上收集了128段遥操作片段。结果表明,通过一个非常轻量级的添加,该模型能够学习在不同配置的退化关节下成功运行,而默认预训练的VLA-Adapter的Libero-Spatial-Pro模型则无法做到。代码和数据集即将在https://github.com/h-arslan/health-aware-vla上开源。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型主要关注任务失败检测与恢复,但未涉及机器人**物理故障(physical failures)** 的适应 - 真实场景中机器人常面临关节退化、执行器故障、夹爪无力等物理退化,现有方法无法处理 - 传统VLA模型在机器人部件退化时无法调整行为,导致任务失败
🔧 核心方法
- 提出**健康条件化VLA(Health-Conditioned VLA)**,将**健康向量(health vector)** 作为额外输入,包含机器人各关节的**操作角度(operation angle)** 和**扭矩能力(torque capability)** 信息 - 在**VLA-Adapter架构** 中注入一个**健康投影器(Health Projector)** 模块,将健康向量映射为与视觉语言特征兼容的表示 - 在**LIBERO环境** 中收集128个遥操作轨迹,模拟不同关节退化配置,用于训练健康投影器
💡 核心创新
- **首创性**:首次将**健康状态(health state)** 显式引入VLA模型,使模型能够感知并适应机器人自身的物理故障 - **轻量化**:仅添加一个轻量模块(健康投影器),无需重新训练整个VLA模型,即可实现退化关节下的任务执行 - **泛化能力**:在训练时未见的多种关节退化配置下,模型仍能成功完成任务,而预训练VLA-Adapter完全失效
🏆 总体贡献
- 为**机器人故障感知控制(malfunction-aware robot control)** 提供了一种新范式,将健康条件化融入**视觉-语言-动作(VLA)** 框架 - 通过公开数据集和代码(即将开源),促进了该领域的可复现研究与后续扩展 - 实验证明轻量适配即可显著提升VLA模型在机器人物理退化场景下的鲁棒性,具有实际应用价值