- 现有空中**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在单无人机任务中表现良好,但能否迁移到**空地协同(air-ground cooperation)** 场景尚不清楚
- 缺乏统一的、物理一致的**闭环(closed-loop)** 评估环境来测试无人机(UAV)与无人车(UGV)的联合协作能力
- 研究背景:现有评估多聚焦单智能体能力,忽视多智能体协同中**状态共享** 和**时序对齐** 等关键挑战
- 构建**CARLA-Air** 单进程空地评估环境,在同一个**Unreal Engine** 运行时中整合CARLA和AirSim,共享世界状态、物理时钟和感知管线
- 设计两个互补的诊断任务:**移动平台着陆(moving-platform landing)** 和**遮挡恢复护航(occlusion-recovery escort)**
- 评估代表性空中VLA模型和规划基线,采用**文本提示(text-based cue)** 接口进行跨智能体交互
- 测量**模拟时间戳对齐(simulation-timestamp alignment)** 和**有效协调延迟(effective coordination latency)** 等指标
- **首次系统评估** 空中VLA模型在**闭环空地协同** 中的零样本迁移能力,而非单智能体性能
- 发现**单智能体能力无法直接转化为稳定协同行为**,即使能跟踪或跟随地面伙伴
- 揭示**状态提示(state prompting)** 收益有限,**双向交互(bidirectional interaction)** 可能放大错误
- 提出零样本协同所需的三个关键组件:**显式伙伴状态接地(explicit partner-state grounding)**、**低延迟动作协调(low-latency action coordination)** 和**团队级目标对齐(team-level objective alignment)**
- 提供了**CARLA-Air** 这一开源、物理一致的评估平台,促进空地协同研究标准化
- 通过实验揭示当前VLA模型在协同中的根本性局限,为未来研究指明方向
- 明确指出了**零样本协同(zero-shot cooperation)** 的瓶颈,推动领域从单智能体向多智能体协同范式演进
- 开源代码([GitHub链接](https://github.com/louiszengCN/CarlaAir))便于复现和扩展