- 高维连续控制中的**策略优化(policy optimization)** 仍具挑战,现有方法**局部性强(local)**,需大量调参和精心选择初始猜测
- 全局搜索方法虽对初始化不敏感,但**rollout成本高(high rollout cost)**
- 目标:在有限**rollout预算(rollout budget)** 下改进**全局探索(global exploration)** 效率
- 提出**TFM-S3**,一种**表格混合局部-全局方法(tabular hybrid local-global method)**
- 交替执行**高频局部更新(high-frequency local updates)** 与**间歇全局搜索(intermittent global search)**
- 每轮全局搜索中,通过**SVD** 构建动态更新的**低维策略子空间(low-dimensional policy subspace)**,并在该空间内进行**迭代代理引导优化(iterative surrogate-guided refinement)**
- 利用**预训练表格基础模型(pretrained tabular foundation model)** 从少量上下文集预测候选回报,实现**大规模筛选(large-scale screening)** 而无需大量rollout
- **首次将预训练表格基础模型** 应用于机器人策略学习的**探索引导(exploration guidance)**,利用其从少量数据预测返回的能力
- 通过**动态低维子空间** 进行全局搜索,有效降低搜索维度并提高效率
- **混合局部-全局框架** 在不增加rollout预算的前提下结合局部优化速度和全局探索广度
- 相比**TD3** 和**基于种群的方法(population-based baselines)**,在相同rollout预算下加速早期收敛并提升最终性能
- 为**机器人连续控制(continuous control in robotics)** 提供一种**样本高效(sample-efficient)** 的策略学习新范式
- 在标准**连续控制基准(continuous control benchmarks)** 上验证了**TFM-S3** 的优越性,证明**表格基础模型** 能有效指导探索
- 开创了将**基础模型(foundation models)** 用于**策略优化(policy optimization)** 中探索问题的先例,促进未来研究