← 返回论文列表

FreqCache:自适应频率引导的令牌缓存加速具身VLN模型
FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching

作者: Zihao Zheng, Xingyue Zhou, Zhihao Mao 等10人
arXiv: 2604.24391v1
分类: cs.RO
📝 论文摘要
视觉-语言-导航(VLN)模型展现出卓越的导航精度,但计算开销较高。Token缓存作为一种有前景的无训练策略,通过复用token计算结果来降低这一成本;然而,现有token缓存方法依赖视觉域方法进行可缓存token的选择,这导致在适配VLN模型时面临挑战:1)当视角发生迁移时,视觉域方法失效;2)视觉域方法在缺乏额外算法辅助的情况下忽略了关键边缘信息;3)视觉域方法忽视了场景的时变特性,且缺乏缓存预算的可调性。本文通过详细分析发现,这些挑战的影响在频域中具有不变性和可分析性。基于此,我们提出了一种频域引导的token缓存框架FreqCache。利用频域的固有特性,FreqCache实现了最优的token缓存建立、刷新与自适应调整。实验表明,FreqCache在几乎无额外开销的情况下实现了1.59倍加速,展示了频域方法在VLN token缓存中的集成效果。

📊 核心分析

🎯 研究动机
- 解决**视觉-语言-导航(VLN)**模型因高计算开销导致的推理效率低下问题 - 现有**token缓存(token caching)**方法源于视觉域,难以适应VLN模型:视角迁移时失效、忽略关键边缘信息、缺乏对场景时变性的自适应缓存预算调整 - 研究背景:VLN模型导航精度高但速度慢,**训练无关(training-free)**的缓存策略有潜力但现有方法存在根本性缺陷
🔧 核心方法
- 提出**FreqCache**框架,基于**频域(frequency domain)**的固有属性(不变性和可分析性)指导token缓存 - 包含三个核心机制:**最优缓存建立(optimal cache establishment)**、**缓存刷新(cache refreshment)**以及**自适应调整(adaptive adjustment)** - 利用频域分析替代视觉域方法,在频域中识别可缓存token并动态调整缓存预算
💡 核心创新
- **频域视角创新**:首次将**频域分析(frequency domain analysis)**引入VLN token缓存,利用其不变性克服视角迁移问题 - **边缘信息感知**:无需额外算法即可自然捕获**关键边缘信息(critical edge information)**,避免视觉域方法的遗漏 - **动态预算调整**:根据场景时变性自适应调整缓存预算,突破现有方法缺乏灵活性的局限
🏆 总体贡献
- 为VLN模型加速提供了一种高效的**训练无关(training-free)**缓存范式,实现**1.59倍加速(1.59x speedup)**且开销可忽略 - 验证了**频域方法(frequency domain method)**在token缓存中的有效性,开辟了新的研究方向 - 在标准VLN基准上显著提升推理速度,同时保持导航精度,促进具身导航的实用化部署