← 返回论文列表

EvoNav: 基于大语言模型的机器人导航进化奖励函数设计
EvoNav: Evolutionary Reward Function Design for Robot Navigation with Large Language Models

作者: Zhikai Zhao, Chuanbo Hua, Federico Berto 等7人
arXiv: 2605.11859v1
分类: cs.RO, cs.AI
📝 论文摘要
机器人导航是一项关键任务,适用于动态人类环境中的社交机器人。尽管强化学习(RL)在该问题上展现出巨大潜力,但策略质量对奖励函数的设定高度敏感。手工设计的奖励函数需要大量领域专业知识,并且嵌入了难以审计或调整的归纳偏置,从而限制了其有效性并导致次优性能。本文提出EvoNav,一种通过大语言模型(LLM)自动设计机器人导航奖励函数的进化框架。为克服代价高昂的策略训练问题,EvoNav通过渐进式三阶段预热-提升流程评估LLM生成的每个候选方案。该方法从使用低成本代理(如小规模数据集和分析规则)的分析代理开始,逐步过渡到轻量级策略展开,最终进入完整策略训练,从而在有效反馈下实现计算高效的探索。实验结果表明,与手工设计的RL奖励函数及当前最先进的奖励设计方法相比,EvoNav能够生成更有效的导航策略。

📊 核心分析

🎯 研究动机
- 机器人导航中,**强化学习(Reinforcement Learning, RL)** 策略质量对奖励函数高度敏感,手工设计需要大量领域知识且难以适应动态环境 - 现有手工设计的奖励函数嵌入归纳偏差,难以审计或调整,导致次优性能 - 研究背景:社交机器人在动态人类环境中的导航任务,需要高效且鲁棒的奖励函数设计方法
🔧 核心方法
- 提出**EvoNav** 框架,利用**大语言模型(Large Language Models, LLMs)** 自动化生成奖励函数候选方案 - 设计**渐进式三阶段warm-up-boost评估流程**:第一阶段使用低成本代理(小数据集与解析规则),第二阶段进行轻量级rollouts,第三阶段执行完整策略训练 - 基于进化思想迭代优化候选奖励函数,通过渐进评估实现计算高效探索
💡 核心创新
- **首次将LLM与进化框架结合** 用于机器人导航奖励函数的自动设计,替代传统手工或黑盒优化方法 - **渐进式三阶段评估机制**:从分析代理逐步过渡到完整训练,显著降低LLM候选方案评估的计算成本 - **有效反馈闭环**:利用不同阶段的评估结果指导LLM生成更优奖励函数,避免直接进行昂贵策略训练
🏆 总体贡献
- 为机器人导航奖励函数设计提供了一种**自动化**、**可适应** 的新范式,减少对领域专家的依赖 - 在实验中被证明比手工设计的RL奖励和现有最先进奖励设计方法产生更有效的导航策略 - 奠定了**LLM驱动的进化奖励设计** 在机器人学中的应用基础,促进高效探索与泛化能力