- 解决**视觉-语言-导航(VLN)**模型因高计算开销导致的推理效率低下问题
- 现有**token缓存(token caching)**方法源于视觉域,难以适应VLN模型:视角迁移时失效、忽略关键边缘信息、缺乏对场景时变性的自适应缓存预算调整
- 研究背景:VLN模型导航精度高但速度慢,**训练无关(training-free)**的缓存策略有潜力但现有方法存在根本性缺陷
- 提出**FreqCache**框架,基于**频域(frequency domain)**的固有属性(不变性和可分析性)指导token缓存
- 包含三个核心机制:**最优缓存建立(optimal cache establishment)**、**缓存刷新(cache refreshment)**以及**自适应调整(adaptive adjustment)**
- 利用频域分析替代视觉域方法,在频域中识别可缓存token并动态调整缓存预算
- **频域视角创新**:首次将**频域分析(frequency domain analysis)**引入VLN token缓存,利用其不变性克服视角迁移问题
- **边缘信息感知**:无需额外算法即可自然捕获**关键边缘信息(critical edge information)**,避免视觉域方法的遗漏
- **动态预算调整**:根据场景时变性自适应调整缓存预算,突破现有方法缺乏灵活性的局限
- 为VLN模型加速提供了一种高效的**训练无关(training-free)**缓存范式,实现**1.59倍加速(1.59x speedup)**且开销可忽略
- 验证了**频域方法(frequency domain method)**在token缓存中的有效性,开辟了新的研究方向
- 在标准VLN基准上显著提升推理速度,同时保持导航精度,促进具身导航的实用化部署