FreqCache：自适应频率引导的令牌缓存加速具身VLN模型

📝 论文摘要

视觉-语言-导航（VLN）模型展现出卓越的导航精度，但计算开销较高。Token缓存作为一种有前景的无训练策略，通过复用token计算结果来降低这一成本；然而，现有token缓存方法依赖视觉域方法进行可缓存token的选择，这导致在适配VLN模型时面临挑战：1）当视角发生迁移时，视觉域方法失效；2）视觉域方法在缺乏额外算法辅助的情况下忽略了关键边缘信息；3）视觉域方法忽视了场景的时变特性，且缺乏缓存预算的可调性。本文通过详细分析发现，这些挑战的影响在频域中具有不变性和可分析性。基于此，我们提出了一种频域引导的token缓存框架FreqCache。利用频域的固有特性，FreqCache实现了最优的token缓存建立、刷新与自适应调整。实验表明，FreqCache在几乎无额外开销的情况下实现了1.59倍加速，展示了频域方法在VLN token缓存中的集成效果。

🎯 研究动机

- 解决**视觉-语言-导航(VLN)**模型因高计算开销导致的推理效率低下问题 - 现有**token缓存(token caching)**方法源于视觉域，难以适应VLN模型：视角迁移时失效、忽略关键边缘信息、缺乏对场景时变性的自适应缓存预算调整 - 研究背景：VLN模型导航精度高但速度慢，**训练无关(training-free)**的缓存策略有潜力但现有方法存在根本性缺陷

🔧 核心方法

- 提出**FreqCache**框架，基于**频域(frequency domain)**的固有属性（不变性和可分析性）指导token缓存 - 包含三个核心机制：**最优缓存建立(optimal cache establishment)**、**缓存刷新(cache refreshment)**以及**自适应调整(adaptive adjustment)** - 利用频域分析替代视觉域方法，在频域中识别可缓存token并动态调整缓存预算

💡 核心创新

- **频域视角创新**：首次将**频域分析(frequency domain analysis)**引入VLN token缓存，利用其不变性克服视角迁移问题 - **边缘信息感知**：无需额外算法即可自然捕获**关键边缘信息(critical edge information)**，避免视觉域方法的遗漏 - **动态预算调整**：根据场景时变性自适应调整缓存预算，突破现有方法缺乏灵活性的局限

🏆 总体贡献

- 为VLN模型加速提供了一种高效的**训练无关(training-free)**缓存范式，实现**1.59倍加速(1.59x speedup)**且开销可忽略 - 验证了**频域方法(frequency domain method)**在token缓存中的有效性，开辟了新的研究方向 - 在标准VLN基准上显著提升推理速度，同时保持导航精度，促进具身导航的实用化部署

FreqCache：自适应频率引导的令牌缓存加速具身VLN模型
FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching

📊 核心分析

FreqCache：自适应频率引导的令牌缓存加速具身VLN模型 FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching

📊 核心分析

FreqCache：自适应频率引导的令牌缓存加速具身VLN模型
FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching