该论文旨在解决语言引导无人机(UAVs)在实际部署中面临的"执行不匹配(execution mismatch)"问题。研究背景是:无人机在执行语言指令时,失败往往不是由于推理或感知错误,而是由于规划轨迹与控制器在真实动态环境(如质量变化、阻力变化、执行器延迟、风力等)下的跟踪能力之间存在差距。
论文提出了一个名为AeroBridge-TTA的语言条件控制流程,包含三个核心部分:
- 一个语言编码器(language encoder):将自然语言指令映射为一个子目标(subgoal)。
- 一个自适应策略(adaptive policy):该策略以子目标和学习到的潜在变量(latent)为条件。
- 一个测试时适应(test-time adaptation, TTA)模块:该模块在线(online)根据观察到的状态转移(transitions)更新潜在变量。
论文的核心创新点在于将测试时适应(TTA)机制系统地引入到语言条件控制中,以在线、自适应地弥合训练与测试环境动态特性不匹配造成的执行差距。其独特之处在于:
- 与现有工作(如使用固定策略或领域随机化(domain randomization))相比,AeroBridge-TTA在部署时能主动适应未知的动态变化,而无需重新训练策略。
- 通过一个轻量级的潜在变量在线更新机制,而非调整整个策略网络,实现了高效且稳定的适应。
- 实验表明,其性能提升完全来自于对分布外(out-of-distribution, OOD)条件的适应,证明了该方法的有效性。
论文对该领域的整体贡献包括:
- 提出并验证了一个新颖的、基于测试时适应的语言条件控制框架AeroBridge-TTA,专门用于解决无人机控制中的执行不匹配问题。
- 在5个语言条件任务和13种不匹配条件下进行了系统评估,证明了该方法在分布外(OOD)场景下的显著优势(平均提升+22.0个百分点),且总体性能提升完全来自OOD场景。
- 通过消融实验(如仅改变步长α)量化了潜在变量更新机制本身带来的性能提升(OOD性能提升4.6倍),为在线适应方法的研究提供了实证依据。