- 机器人导航中,**强化学习(Reinforcement Learning, RL)** 策略质量对奖励函数高度敏感,手工设计需要大量领域知识且难以适应动态环境
- 现有手工设计的奖励函数嵌入归纳偏差,难以审计或调整,导致次优性能
- 研究背景:社交机器人在动态人类环境中的导航任务,需要高效且鲁棒的奖励函数设计方法
- 提出**EvoNav** 框架,利用**大语言模型(Large Language Models, LLMs)** 自动化生成奖励函数候选方案
- 设计**渐进式三阶段warm-up-boost评估流程**:第一阶段使用低成本代理(小数据集与解析规则),第二阶段进行轻量级rollouts,第三阶段执行完整策略训练
- 基于进化思想迭代优化候选奖励函数,通过渐进评估实现计算高效探索
- **首次将LLM与进化框架结合** 用于机器人导航奖励函数的自动设计,替代传统手工或黑盒优化方法
- **渐进式三阶段评估机制**:从分析代理逐步过渡到完整训练,显著降低LLM候选方案评估的计算成本
- **有效反馈闭环**:利用不同阶段的评估结果指导LLM生成更优奖励函数,避免直接进行昂贵策略训练
- 为机器人导航奖励函数设计提供了一种**自动化**、**可适应** 的新范式,减少对领域专家的依赖
- 在实验中被证明比手工设计的RL奖励和现有最先进奖励设计方法产生更有效的导航策略
- 奠定了**LLM驱动的进化奖励设计** 在机器人学中的应用基础,促进高效探索与泛化能力