空中VLA模型能否协同？使用CARLA-Air评估闭环空地协调

📝 论文摘要

近期基于视觉-语言-动作（VLA）的空中模型展现出有前景的单无人机能力，例如跟踪移动物体和导航至语言指定的地标。然而，这些能力能否迁移至空地协同场景（即无人机与无人地面车辆需在共享、闭环的物理世界中联合行动）尚不明确。我们通过CARLA-Air（一个单进程空地评估环境，在单一虚幻引擎运行时中统一了CARLA和AirSim）来研究该问题。通过共享相同的世界状态、物理时钟和感知管线，CARLA-Air能够实现物理一致的无人机-无人地面车辆交互，并精确测量仿真时间戳对齐程度及有效协同延迟。利用CARLA-Air，我们在两个互补的诊断性任务（移动平台着陆和遮挡恢复护航）上评估了具有代表性的空中VLA及规划基线。结果表明，当前的空中VLA模型通常能够跟踪或追随地面合作伙伴，但难以将这种单智能体能力转化为稳定的协同行为。状态提示提供的收益有限，而朴素的双向交互不仅无法持续提升性能，反而可能放大多数基线的误差。这些发现表明，在目前基于文本的提示接口下，零样本协同空地VLA需要超越当前范式的三个组件：显式合作伙伴状态接地、低延迟动作协调以及团队级目标对齐。我们的代码已开源：https://github.com/louiszengCN/CarlaAir。

🎯 研究动机

- 现有空中**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在单无人机任务中表现良好，但能否迁移到**空地协同(air-ground cooperation)** 场景尚不清楚 - 缺乏统一的、物理一致的**闭环(closed-loop)** 评估环境来测试无人机(UAV)与无人车(UGV)的联合协作能力 - 研究背景：现有评估多聚焦单智能体能力，忽视多智能体协同中**状态共享** 和**时序对齐** 等关键挑战

🔧 核心方法

- 构建**CARLA-Air** 单进程空地评估环境，在同一个**Unreal Engine** 运行时中整合CARLA和AirSim，共享世界状态、物理时钟和感知管线 - 设计两个互补的诊断任务：**移动平台着陆(moving-platform landing)** 和**遮挡恢复护航(occlusion-recovery escort)** - 评估代表性空中VLA模型和规划基线，采用**文本提示(text-based cue)** 接口进行跨智能体交互 - 测量**模拟时间戳对齐(simulation-timestamp alignment)** 和**有效协调延迟(effective coordination latency)** 等指标

💡 核心创新

- **首次系统评估** 空中VLA模型在**闭环空地协同** 中的零样本迁移能力，而非单智能体性能 - 发现**单智能体能力无法直接转化为稳定协同行为**，即使能跟踪或跟随地面伙伴 - 揭示**状态提示(state prompting)** 收益有限，**双向交互(bidirectional interaction)** 可能放大错误 - 提出零样本协同所需的三个关键组件：**显式伙伴状态接地(explicit partner-state grounding)**、**低延迟动作协调(low-latency action coordination)** 和**团队级目标对齐(team-level objective alignment)**

🏆 总体贡献

- 提供了**CARLA-Air** 这一开源、物理一致的评估平台，促进空地协同研究标准化 - 通过实验揭示当前VLA模型在协同中的根本性局限，为未来研究指明方向 - 明确指出了**零样本协同(zero-shot cooperation)** 的瓶颈，推动领域从单智能体向多智能体协同范式演进 - 开源代码（[GitHub链接](https://github.com/louiszengCN/CarlaAir)）便于复现和扩展

空中VLA模型能否协同？使用CARLA-Air评估闭环空地协调
Can Aerial VLA Models Cooperate? Evaluating Closed-Loop Air-Ground Coordination with CARLA-Air

📊 核心分析

空中VLA模型能否协同？使用CARLA-Air评估闭环空地协调 Can Aerial VLA Models Cooperate? Evaluating Closed-Loop Air-Ground Coordination with CARLA-Air

📊 核心分析

空中VLA模型能否协同？使用CARLA-Air评估闭环空地协调
Can Aerial VLA Models Cooperate? Evaluating Closed-Loop Air-Ground Coordination with CARLA-Air