← 返回论文列表

无人机追踪视觉语言动作模型:基于视觉-语言-动作模型的具身空中追踪
UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models

作者: Qiyao Zhang, Shuhua Zheng, Jianli Sun 等9人
arXiv: 2604.02241v1
分类: cs.CV, cs.RO
📝 论文摘要
具身视觉跟踪对于无人机执行复杂现实任务至关重要。在具有复杂语义需求的动态城市场景中,视觉-语言-动作模型因其跨模态融合与连续动作生成能力展现出巨大潜力。为在此类环境中建立多模态跟踪基准,我们构建了专用评估基准与大规模数据集,涵盖超过89万帧画面、176项任务及85类多样化目标。针对现有VLA模型存在的时序特征冗余与空间几何先验缺失问题,我们提出改进型VLA跟踪模型UAV-Track VLA。该模型基于π₀.₅架构,创新引入时序压缩网络以高效捕捉帧间动态特征,同时设计包含空间感知辅助定位头与流匹配动作专家的并行双分支解码器,实现跨模态特征解耦与细粒度连续动作生成。在CARLA仿真系统中的系统性实验验证了本方法卓越的端到端性能:在极具挑战性的远距离行人跟踪任务中,UAV-Track VLA取得61.76%成功率与269.65帧平均跟踪时长,显著超越现有基线模型;同时展现出对未见过环境的强零样本泛化能力,单步推理延迟较原始π₀.₅降低33.4%(至0.0571秒),为无人机高效实时控制提供支撑。数据样本与演示视频详见:https://github.com/Hub-Tian/UAV-Track_VLA。

📊 核心分析

🎯 研究动机
该论文旨在解决无人机(UAV)在动态城市环境中执行具身视觉跟踪(embodied visual tracking)时面临的挑战。研究背景是:现有视觉-语言-动作(Vision-Language-Action, VLA)模型在处理此类任务时存在两个关键问题: - 时间特征冗余(temporal feature redundancy) - 缺乏空间几何先验(lack of spatial geometric priors)
🔧 核心方法
论文提出了一种改进的VLA跟踪模型UAV-Track VLA,其核心方法包括: - 基于π₀.₅架构构建 - 引入时间压缩网络(temporal compression net)以高效捕捉帧间动态(inter-frame dynamics) - 设计并行双分支解码器(parallel dual-branch decoder),包含: * 空间感知辅助接地头(spatial-aware auxiliary grounding head) * 流匹配动作专家(flow matching action expert) - 该方法旨在解耦跨模态特征(cross-modal features)并生成细粒度连续动作(fine-grained continuous actions) - 在CARLA仿真器中进行系统实验验证
💡 核心创新
论文的核心创新点主要体现在三个方面: - **架构创新**:在π₀.₅ VLA架构基础上,首次针对无人机具身跟踪任务设计了专门的时间压缩网络和并行双分支解码器,有效解决了时间冗余和空间先验缺失问题 - **方法创新**: * 通过时间压缩网络显著减少时序计算开销 * 通过空间感知辅助接地头引入几何先验 * 通过流匹配动作专家实现更精细的动作控制 - **性能创新**:在长距离行人跟踪任务中达到61.76%成功率,相比基线有显著提升,同时实现零样本泛化(zero-shot generalization)和33.4%的延迟降低
🏆 总体贡献
论文对该领域的整体贡献包括: - **基准建设**:构建了专门的多模态跟踪评估基准和大型数据集(包含89万帧、176个任务、85个不同对象) - **模型推进**:提出了UAV-Track VLA模型,为无人机具身跟踪任务提供了新的VLA解决方案 - **性能突破**:在CARLA仿真中验证了方法的端到端性能优势,特别是在长距离跟踪和实时性方面 - **开源共享**:公开了数据样本和演示视频,促进后续研究