← 返回论文列表

将适应转化为资产:在线视觉-语言导航的跨域桥接
Turning Adaptation into Assets: Cross-Domain Bridging for Online Vision-Language Navigation

作者: Zixuan Hu, Xuantuo Huang, Yancheng Li 等6人
arXiv: 2605.23257v1
分类: cs.RO, cs.CV
📝 论文摘要
在非平稳环境变化中导航对于部署在野外的视觉语言导航(VLN)智能体而言是一项关键挑战。然而,现有的VLN测试时自适应(TTA)方法大多将在线自适应视为短暂的、孤立的更新,导致灾难性遗忘和负迁移。为解决这些问题,我们提出了一种基于历史资产的跨域桥接(IDEA)方法,这是一种新型TTA框架,将自适应转化为资产的积累与组合。具体而言,IDEA引入通过费舍尔信息引导的加权方案优化的软提示,以捕获可迁移知识。这些优化后的提示再结合域坐标进行增强,形成动态资产库。利用该资产库,IDEA通过将目标域投影到历史知识的凸包上构建跨域桥接。这些设计形成了互补闭环:不断演化的资产库支撑桥接构建,而桥接则提供更优的初始化以加速资产优化。在REVERIE、R2R和R2R-CE基准上的大量实验表明,IDEA在现有方法中具有持续优势,展现了其通过资产共享实现无需训练的自适应能力。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言导航(VLN)** 的**测试时自适应(TTA)** 方法将在线适应视为瞬态、孤立的更新,导致**灾难性遗忘(catastrophic forgetting)** 和**负迁移(negative transfer)** - 在非平稳环境变化下部署VLN智能体面临关键挑战,现有方法无法有效积累和复用知识
🔧 核心方法
- 提出**跨域桥与历史资产(IDEA)** 框架,将适应转化为资产的积累与组合 - 引入**软提示(soft prompts)**,通过**Fisher引导加权方案(Fisher-guided weighting scheme)** 优化以捕获可迁移知识 - 将优化后的提示与**领域坐标(domain coordinates)** 结合,形成**动态资产库(dynamic asset library)** - 利用该库,通过将目标域投影到历史知识的**凸包(convex hull)** 上构建**跨域桥(cross-domain bridge)**
💡 核心创新
- **范式转变**:首次将**测试时自适应(TTA)** 从瞬态更新转化为**资产积累与组合**,形成互补循环(库支撑桥,桥加速资产优化) - **Fisher引导加权方案**:精准捕获可迁移知识,避免灾难性遗忘 - **动态资产库与跨域桥**:通过凸包投影实现跨域知识复用,实现**无训练适应(training-free adaptation)**
🏆 总体贡献
- 为**视觉-语言导航(VLN)** 领域提供了一种新颖的**测试时自适应(TTA)** 框架,有效应对非平稳环境 - 在**REVERIE、R2R、R2R-CE** 多个基准上一致超越现有方法 - 通过**资产共享(asset sharing)** 实现无训练适应,促进实际部署中的效率与鲁棒性