该论文旨在解决无人机(UAV)在动态城市环境中执行具身视觉跟踪(embodied visual tracking)时面临的挑战。研究背景是:现有视觉-语言-动作(Vision-Language-Action, VLA)模型在处理此类任务时存在两个关键问题:
- 时间特征冗余(temporal feature redundancy)
- 缺乏空间几何先验(lack of spatial geometric priors)
论文提出了一种改进的VLA跟踪模型UAV-Track VLA,其核心方法包括:
- 基于π₀.₅架构构建
- 引入时间压缩网络(temporal compression net)以高效捕捉帧间动态(inter-frame dynamics)
- 设计并行双分支解码器(parallel dual-branch decoder),包含:
* 空间感知辅助接地头(spatial-aware auxiliary grounding head)
* 流匹配动作专家(flow matching action expert)
- 该方法旨在解耦跨模态特征(cross-modal features)并生成细粒度连续动作(fine-grained continuous actions)
- 在CARLA仿真器中进行系统实验验证
论文的核心创新点主要体现在三个方面:
- **架构创新**:在π₀.₅ VLA架构基础上,首次针对无人机具身跟踪任务设计了专门的时间压缩网络和并行双分支解码器,有效解决了时间冗余和空间先验缺失问题
- **方法创新**:
* 通过时间压缩网络显著减少时序计算开销
* 通过空间感知辅助接地头引入几何先验
* 通过流匹配动作专家实现更精细的动作控制
- **性能创新**:在长距离行人跟踪任务中达到61.76%成功率,相比基线有显著提升,同时实现零样本泛化(zero-shot generalization)和33.4%的延迟降低
论文对该领域的整体贡献包括:
- **基准建设**:构建了专门的多模态跟踪评估基准和大型数据集(包含89万帧、176个任务、85个不同对象)
- **模型推进**:提出了UAV-Track VLA模型,为无人机具身跟踪任务提供了新的VLA解决方案
- **性能突破**:在CARLA仿真中验证了方法的端到端性能优势,特别是在长距离跟踪和实时性方面
- **开源共享**:公开了数据样本和演示视频,促进后续研究