- 现有**强化学习(Reinforcement Learning, RL)** 模型对算法与超参数配置高度敏感,且跨环境的泛化差距阻碍机器人实际部署
- 已有工作研究RL泛化性,但未能**定量分解** 具体配置对泛化差距的贡献,也未系统性地利用这些贡献进行配置选择
- 研究背景:机器人任务要求RL模型在不同环境下稳定表现,但配置选择的经验性方法缺乏可解释性指导
- 提出**可解释性框架(explainable framework)**,利用**沙普利加性解释(SHapley Additive exPlanations, SHAP)** 量化算法和超参数配置对RL性能的影响
- 建立**沙普利值(Shapley values)** 与泛化能力之间的**理论联系(theoretical foundation)**
- 通过**经验分析(empirical analysis)** 揭示不同算法和超参数的配置影响模式
- 引入**SHAP引导的配置选择(SHAP-guided configuration selection)** 策略,以提升泛化性
- **首次** 将**SHAP值(Shapley values)** 用于定量分解RL配置对泛化差距的贡献,而非仅用于特征重要性分析
- **理论创新**:建立沙普利值与泛化性的形式化关联,为可解释配置选择提供理论支撑
- **模式发现**:揭示跨不同任务和环境中**一致的配置影响模式(consistent configuration impacts)**,支持配置迁移
- **实用性创新**:基于SHAP分析提供**可操作的指导(actionable guidance)**,帮助从业者选择泛化性更好的配置
- 为**RL泛化性(RL generalizability)** 研究提供了**可解释的分析范式(explainable analysis paradigm)**,量化了配置的贡献
- 通过SHAP引导的配置选择,在机器人环境中实现了**增强的泛化性能(enhanced generalization)**
- 建立了**理论-经验-应用** 全链条框架,推动可解释RL在机器人领域的发展
- 为从业者提供**系统性的配置选择指南**,降低试错成本并提高部署可靠性