FocalPolicy：频率优化的分块与局部锚定的流匹配以实现连贯的视觉运动策略

📝 论文摘要

视觉运动策略旨在从专家演示中学习复杂的操作任务。然而，生成平滑且连贯的轨迹仍然具有挑战性，因为这需要在近端精确性与远端前瞻性之间取得平衡。现有方法通常专注于优化块内动作分布，往往忽略了块间连贯性。因此，块间不连续会显著阻碍连贯的长时域动作学习。为克服这一局限并实现精确性与前瞻性的协同平衡，我们提出FocalPolicy——一种结合频率优化分块与局部锚定流匹配的前瞻感知视觉运动策略。我们引入一个前瞻复合目标，该目标在监督近端动作时域对齐的同时，对多个未来动作块的频域结构进行正则化，以提升跨块连贯性。为高效学习复杂动作分布，我们设计局部锚定采样，在一致性流匹配训练中增强目标信号传播效率。大量实验表明，FocalPolicy优于现有方法，并验证了我们模块对其他基线模型的泛化能力。项目网站：https://focalpolicy.github.io/

🎯 研究动机

- 解决**视觉运动策略(visuomotor policy)** 中生成平滑连贯轨迹的挑战，需要平衡近端精确性(proximal precision)与远端前瞻性(distal foresight) - 现有方法仅优化块内(intra-chunk)动作分布，忽略了块间(inter-chunk)连贯性，导致长时域动作不连续，学习困难

🔧 核心方法

- 提出**FocalPolicy** 框架，结合**频率优化分块(Frequency-Optimized Chunking)** 和**局部锚定流匹配(Locally Anchored Flow Matching)** - 引入**前瞻复合目标(foresight composite objective)**：在近端动作上监督时域(time-domain)对齐，同时在多个未来动作块上正则化频域(frequency-domain)结构以提升跨块连贯性 - 设计**局部锚定采样(locally anchored sampling)**，在**一致性流匹配(consistency flow matching)** 训练中增强目标信号传播效率

💡 核心创新

- **首创频域正则化**：通过频率优化分块，在频域维度对多个未来动作块进行结构约束，显式改善块间不连续问题 - **局部锚定流匹配机制**：改进一致性流匹配的训练采样方式，高效学习复杂动作分布，提升目标信号传播效率 - **前瞻性平衡策略**：同时优化近端时域对齐与远端频域结构，实现精确性与前瞻性的协同平衡，优于仅关注单一块内分布的现有方法

🏆 总体贡献

- 提出一种新颖的**FocalPolicy** 框架，在**平滑连贯轨迹生成** 任务上显著超越现有方法 - 所提模块具有**泛化性(generalizability)**，可迁移至其他基线模型，验证其可作为通用的插件提升性能 - 公开项目网站与相关代码，促进社区复现与后续研究

FocalPolicy：频率优化的分块与局部锚定的流匹配以实现连贯的视觉运动策略
FocalPolicy: Frequency-Optimized Chunking and Locally Anchored Flow Matching for Coherent Visuomotor Policy

📊 核心分析

FocalPolicy：频率优化的分块与局部锚定的流匹配以实现连贯的视觉运动策略 FocalPolicy: Frequency-Optimized Chunking and Locally Anchored Flow Matching for Coherent Visuomotor Policy

📊 核心分析

FocalPolicy：频率优化的分块与局部锚定的流匹配以实现连贯的视觉运动策略
FocalPolicy: Frequency-Optimized Chunking and Locally Anchored Flow Matching for Coherent Visuomotor Policy