← 返回论文列表

PrefMoE:基于混合专家奖励学习的鲁棒偏好建模
PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning

作者: Ziqin Yuan, Ruiqi Wang, Dezhong Zhao 等5人
arXiv: 2605.00384v1
分类: cs.RO
📝 论文摘要
基于偏好的强化学习通过从比较反馈中学习奖励结构,为手动奖励工程提供了一种可扩展的替代方案。然而,大规模偏好数据集——无论是从众包标注员收集还是由合成教师生成——往往包含异质且部分冲突的监督信号,包括标注员之间的分歧以及标注员自身的不一致性。现有奖励学习方法通常针对此类数据拟合单一奖励模型,迫使其平均化不相容的信号,从而限制了鲁棒性。为解决这一问题,我们提出PrefMoE,一种用于鲁棒偏好建模的混合专家奖励学习框架。PrefMoE学习多个专业化的奖励专家,并通过轨迹级软路由自适应地组合它们,使模型能够在噪声和异质偏好监督下捕捉多样的潜在偏好模式。负载均衡正则化器通过防止专家坍缩进一步稳定训练。在D4RL的运动基准和MetaWorld的操作任务实验中,PrefMoE相比强单一模型基线提升了偏好预测的鲁棒性,并带来了更可靠的下游策略学习效果。

📊 核心分析

🎯 研究动机
- 现有基于偏好的强化学习(preference-based RL)在大规模偏好数据集中面临**异质性和冲突监督** 问题,包括注释者间分歧和内部不一致 - 现有的**单奖励模型(single reward model)** 方法被迫平均不兼容的偏好信号,导致鲁棒性受限 - 研究背景:偏好反馈作为奖励工程的替代方案应用日益广泛,但数据质量参差不齐,亟需处理噪声与冲突的奖励学习方法
🔧 核心方法
- 提出**PrefMoE框架**,采用**混合专家(mixture-of-experts, MoE)** 结构学习多个专门的奖励专家 - 使用**轨迹级软路由(trajectory-level soft routing)** 自适应地组合专家输出,捕获多样化的潜在偏好模式 - 引入**负载均衡正则化器(load-balancing regularizer)** 防止专家崩溃(expert collapse),稳定训练过程
💡 核心创新
- **首创性**:首次将**混合专家(MoE)架构** 应用于偏好建模中的奖励学习,解决异构噪声监督问题 - **软路由机制**:区别于硬路由或加权平均,轨迹级软路由允许每个样本自适应地组合不同专家,而非强制使用单一专家 - **负载均衡正则化**:提出专用正则化项避免专家退化或坍塌,确保多个专家均能学习到有意义的偏好模式
🏆 总体贡献
- 为基于偏好的强化学习领域提供了一种**鲁棒的奖励学习范式**,有效处理大规模数据集中的冲突与噪声 - 在D4RL locomotion和MetaWorld操作任务上,**偏好预测鲁棒性显著提升**,并带来更可靠的下游策略学习 - 提供了一种将**多专家集成(multi-expert ensemble)** 思想引入奖励建模的新方向,优于单模型基线