PrefMoE：基于混合专家奖励学习的鲁棒偏好建模

📝 论文摘要

基于偏好的强化学习通过从比较反馈中学习奖励结构，为手动奖励工程提供了一种可扩展的替代方案。然而，大规模偏好数据集——无论是从众包标注员收集还是由合成教师生成——往往包含异质且部分冲突的监督信号，包括标注员之间的分歧以及标注员自身的不一致性。现有奖励学习方法通常针对此类数据拟合单一奖励模型，迫使其平均化不相容的信号，从而限制了鲁棒性。为解决这一问题，我们提出PrefMoE，一种用于鲁棒偏好建模的混合专家奖励学习框架。PrefMoE学习多个专业化的奖励专家，并通过轨迹级软路由自适应地组合它们，使模型能够在噪声和异质偏好监督下捕捉多样的潜在偏好模式。负载均衡正则化器通过防止专家坍缩进一步稳定训练。在D4RL的运动基准和MetaWorld的操作任务实验中，PrefMoE相比强单一模型基线提升了偏好预测的鲁棒性，并带来了更可靠的下游策略学习效果。

🎯 研究动机

- 现有基于偏好的强化学习(preference-based RL)在大规模偏好数据集中面临**异质性和冲突监督** 问题，包括注释者间分歧和内部不一致 - 现有的**单奖励模型(single reward model)** 方法被迫平均不兼容的偏好信号，导致鲁棒性受限 - 研究背景：偏好反馈作为奖励工程的替代方案应用日益广泛，但数据质量参差不齐，亟需处理噪声与冲突的奖励学习方法

🔧 核心方法

- 提出**PrefMoE框架**，采用**混合专家(mixture-of-experts, MoE)** 结构学习多个专门的奖励专家 - 使用**轨迹级软路由(trajectory-level soft routing)** 自适应地组合专家输出，捕获多样化的潜在偏好模式 - 引入**负载均衡正则化器(load-balancing regularizer)** 防止专家崩溃(expert collapse)，稳定训练过程

💡 核心创新

- **首创性**：首次将**混合专家(MoE)架构** 应用于偏好建模中的奖励学习，解决异构噪声监督问题 - **软路由机制**：区别于硬路由或加权平均，轨迹级软路由允许每个样本自适应地组合不同专家，而非强制使用单一专家 - **负载均衡正则化**：提出专用正则化项避免专家退化或坍塌，确保多个专家均能学习到有意义的偏好模式

🏆 总体贡献

- 为基于偏好的强化学习领域提供了一种**鲁棒的奖励学习范式**，有效处理大规模数据集中的冲突与噪声 - 在D4RL locomotion和MetaWorld操作任务上，**偏好预测鲁棒性显著提升**，并带来更可靠的下游策略学习 - 提供了一种将**多专家集成(multi-expert ensemble)** 思想引入奖励建模的新方向，优于单模型基线

PrefMoE：基于混合专家奖励学习的鲁棒偏好建模
PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning

📊 核心分析

PrefMoE：基于混合专家奖励学习的鲁棒偏好建模 PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning

📊 核心分析

PrefMoE：基于混合专家奖励学习的鲁棒偏好建模
PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning