← 返回论文列表

表格基础模型能否指导机器人策略学习中的探索?
Can Tabular Foundation Models Guide Exploration in Robot Policy Learning?

作者: Buqing Ou, Frederike Dümbgen
arXiv: 2604.27667v1
分类: cs.RO, cs.LG
📝 论文摘要
面向机器人高维连续控制的策略优化仍是一项挑战性问题。主流方法本质上是局部的,通常需要大量调参和精心选择的初始猜测才能获得良好性能,而更具全局性且对初始化不那么敏感的搜索方法通常会产生高昂的试错成本。我们提出TFM-S3,一种基于表格的局部-全局混合方法,用于在有限试错成本下提升机器人策略学习中的全局探索能力。我们将高频局部更新与间歇性全局搜索轮次交替进行。在每个搜索轮次中,我们通过奇异值分解构建动态更新的低维策略子空间,并在此空间内执行基于代理模型的迭代优化。一个预训练的表格基础模型可根据小规模上下文集合预测候选回报,从而在有限的试错成本下实现大规模筛选。在连续控制基准上的实验表明,与TD3和基于群体基线的算法相比,在相同试错预算下,TFM-S3持续加速早期收敛并提升最终性能。这些结果证明,基础模型是创建面向机器人连续控制中样本高效策略学习方法的强大新工具。

📊 核心分析

🎯 研究动机
- 高维连续控制中的**策略优化(policy optimization)** 仍具挑战,现有方法**局部性强(local)**,需大量调参和精心选择初始猜测 - 全局搜索方法虽对初始化不敏感,但**rollout成本高(high rollout cost)** - 目标:在有限**rollout预算(rollout budget)** 下改进**全局探索(global exploration)** 效率
🔧 核心方法
- 提出**TFM-S3**,一种**表格混合局部-全局方法(tabular hybrid local-global method)** - 交替执行**高频局部更新(high-frequency local updates)** 与**间歇全局搜索(intermittent global search)** - 每轮全局搜索中,通过**SVD** 构建动态更新的**低维策略子空间(low-dimensional policy subspace)**,并在该空间内进行**迭代代理引导优化(iterative surrogate-guided refinement)** - 利用**预训练表格基础模型(pretrained tabular foundation model)** 从少量上下文集预测候选回报,实现**大规模筛选(large-scale screening)** 而无需大量rollout
💡 核心创新
- **首次将预训练表格基础模型** 应用于机器人策略学习的**探索引导(exploration guidance)**,利用其从少量数据预测返回的能力 - 通过**动态低维子空间** 进行全局搜索,有效降低搜索维度并提高效率 - **混合局部-全局框架** 在不增加rollout预算的前提下结合局部优化速度和全局探索广度 - 相比**TD3** 和**基于种群的方法(population-based baselines)**,在相同rollout预算下加速早期收敛并提升最终性能
🏆 总体贡献
- 为**机器人连续控制(continuous control in robotics)** 提供一种**样本高效(sample-efficient)** 的策略学习新范式 - 在标准**连续控制基准(continuous control benchmarks)** 上验证了**TFM-S3** 的优越性,证明**表格基础模型** 能有效指导探索 - 开创了将**基础模型(foundation models)** 用于**策略优化(policy optimization)** 中探索问题的先例,促进未来研究