← 返回论文列表

空中VLA模型能否协同?使用CARLA-Air评估闭环空地协调
Can Aerial VLA Models Cooperate? Evaluating Closed-Loop Air-Ground Coordination with CARLA-Air

作者: Tianle Zeng, Yanci Wen, Xueang Yu 等4人
arXiv: 2605.31066v1
分类: cs.RO
📝 论文摘要
近期基于视觉-语言-动作(VLA)的空中模型展现出有前景的单无人机能力,例如跟踪移动物体和导航至语言指定的地标。然而,这些能力能否迁移至空地协同场景(即无人机与无人地面车辆需在共享、闭环的物理世界中联合行动)尚不明确。 我们通过CARLA-Air(一个单进程空地评估环境,在单一虚幻引擎运行时中统一了CARLA和AirSim)来研究该问题。通过共享相同的世界状态、物理时钟和感知管线,CARLA-Air能够实现物理一致的无人机-无人地面车辆交互,并精确测量仿真时间戳对齐程度及有效协同延迟。 利用CARLA-Air,我们在两个互补的诊断性任务(移动平台着陆和遮挡恢复护航)上评估了具有代表性的空中VLA及规划基线。结果表明,当前的空中VLA模型通常能够跟踪或追随地面合作伙伴,但难以将这种单智能体能力转化为稳定的协同行为。状态提示提供的收益有限,而朴素的双向交互不仅无法持续提升性能,反而可能放大多数基线的误差。这些发现表明,在目前基于文本的提示接口下,零样本协同空地VLA需要超越当前范式的三个组件:显式合作伙伴状态接地、低延迟动作协调以及团队级目标对齐。我们的代码已开源:https://github.com/louiszengCN/CarlaAir。

📊 核心分析

🎯 研究动机
- 现有空中**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在单无人机任务中表现良好,但能否迁移到**空地协同(air-ground cooperation)** 场景尚不清楚 - 缺乏统一的、物理一致的**闭环(closed-loop)** 评估环境来测试无人机(UAV)与无人车(UGV)的联合协作能力 - 研究背景:现有评估多聚焦单智能体能力,忽视多智能体协同中**状态共享** 和**时序对齐** 等关键挑战
🔧 核心方法
- 构建**CARLA-Air** 单进程空地评估环境,在同一个**Unreal Engine** 运行时中整合CARLA和AirSim,共享世界状态、物理时钟和感知管线 - 设计两个互补的诊断任务:**移动平台着陆(moving-platform landing)** 和**遮挡恢复护航(occlusion-recovery escort)** - 评估代表性空中VLA模型和规划基线,采用**文本提示(text-based cue)** 接口进行跨智能体交互 - 测量**模拟时间戳对齐(simulation-timestamp alignment)** 和**有效协调延迟(effective coordination latency)** 等指标
💡 核心创新
- **首次系统评估** 空中VLA模型在**闭环空地协同** 中的零样本迁移能力,而非单智能体性能 - 发现**单智能体能力无法直接转化为稳定协同行为**,即使能跟踪或跟随地面伙伴 - 揭示**状态提示(state prompting)** 收益有限,**双向交互(bidirectional interaction)** 可能放大错误 - 提出零样本协同所需的三个关键组件:**显式伙伴状态接地(explicit partner-state grounding)**、**低延迟动作协调(low-latency action coordination)** 和**团队级目标对齐(team-level objective alignment)**
🏆 总体贡献
- 提供了**CARLA-Air** 这一开源、物理一致的评估平台,促进空地协同研究标准化 - 通过实验揭示当前VLA模型在协同中的根本性局限,为未来研究指明方向 - 明确指出了**零样本协同(zero-shot cooperation)** 的瓶颈,推动领域从单智能体向多智能体协同范式演进 - 开源代码([GitHub链接](https://github.com/louiszengCN/CarlaAir))便于复现和扩展