通过层次化宏动作量化增强强化学习智能体的类人性

📝 论文摘要

类人智能体是人工智能的长期目标。尽管性能强劲，但大多数强化学习（RL）智能体仍以奖励驱动为主，且常表现出与人类不同的行为，限制了可解释性和可靠性。在本工作中，我们提出了一种新颖的类人强化学习框架，该框架在最大化奖励的同时，能够预测与人类行为高度一致的动作序列。具体而言，我们采用包含连续两级向量量化的分层宏动作量化方法（称为HiMAQ），将人类演示编码为宏动作。低层量化将输入动作映射为细粒度的子动作簇，而高层量化则将这些子动作簇聚合成动作簇。在D4RL基准上的广泛评估表明，我们的分层方法优于非分层基线（MAQ），在获得更好类人评分的同时，保持了与先前强化学习智能体相当或更高的成功率。该改进可泛化到与多种强化学习算法（即IQL、SAC和RLPD）的集成中。

🎯 研究动机

- 大多数**强化学习(RL)** 智能体仍以奖励驱动，其行为与人类不同，从而限制了**可解释性(interpretability)** 和**可靠性(reliability)** - 长期目标是创造具有**人类相似性(human-likeness)** 的**人工智能(AI)** 智能体，但现有方法未能很好地平衡任务性能与人类行为对齐

🔧 核心方法

- 提出**分层宏动作量化(Hierarchical Macro Action Quantization, HiMAQ)** 框架，包含两个连续级别的**向量量化(vector quantization)** - 低层量化将输入动作映射到**细粒度子动作簇(fine-grained subaction clusters)**，高层量化将这些子动作簇聚合为**动作簇(action clusters)** - 从**人类演示(human demonstrations)** 中编码**宏动作(macro actions)**，使智能体预测与人类行为紧密对齐的动作序列，同时最大化奖励

💡 核心创新

- **首创性**：首次引入**分层(hierarchical)** 结构对宏动作进行量化，相比非分层基线**MAQ**，显著提升了人类相似性分数 - **性能权衡**：在保持与先前RL智能体相当或更优的任务成功率的同时，实现了更高的人类行为对齐度 - **算法通用性**：该方法可无缝集成到多种RL算法（如**IQL、SAC、RLPD**）中，验证了其泛化能力

🏆 总体贡献

- 提出一种新颖的**人类似RL框架(Human-like RL framework)**，为提升智能体行为可解释性提供了新途径 - 在**D4RL基准(D4RL benchmarks)** 上，分层方法在人类相似性指标上大幅超越非分层基线，且成功率不降 - 开源评估结果和算法集成，推动**人类-机器一致性(human-machine alignment)** 社区的研究进展

通过层次化宏动作量化增强强化学习智能体的类人性
Enhancing Human-Likeness in Reinforcement Learning Agents via Hierarchical Macro Action Quantization

📊 核心分析

通过层次化宏动作量化增强强化学习智能体的类人性 Enhancing Human-Likeness in Reinforcement Learning Agents via Hierarchical Macro Action Quantization

📊 核心分析

通过层次化宏动作量化增强强化学习智能体的类人性
Enhancing Human-Likeness in Reinforcement Learning Agents via Hierarchical Macro Action Quantization