← 返回论文列表

通过层次化宏动作量化增强强化学习智能体的类人性
Enhancing Human-Likeness in Reinforcement Learning Agents via Hierarchical Macro Action Quantization

作者: Usman Nizamani, M. Shaheer Luqman, Fawad Javed Fateh 等7人
arXiv: 2605.30928v1
分类: cs.RO
📝 论文摘要
类人智能体是人工智能的长期目标。尽管性能强劲,但大多数强化学习(RL)智能体仍以奖励驱动为主,且常表现出与人类不同的行为,限制了可解释性和可靠性。在本工作中,我们提出了一种新颖的类人强化学习框架,该框架在最大化奖励的同时,能够预测与人类行为高度一致的动作序列。具体而言,我们采用包含连续两级向量量化的分层宏动作量化方法(称为HiMAQ),将人类演示编码为宏动作。低层量化将输入动作映射为细粒度的子动作簇,而高层量化则将这些子动作簇聚合成动作簇。在D4RL基准上的广泛评估表明,我们的分层方法优于非分层基线(MAQ),在获得更好类人评分的同时,保持了与先前强化学习智能体相当或更高的成功率。该改进可泛化到与多种强化学习算法(即IQL、SAC和RLPD)的集成中。

📊 核心分析

🎯 研究动机
- 大多数**强化学习(RL)** 智能体仍以奖励驱动,其行为与人类不同,从而限制了**可解释性(interpretability)** 和**可靠性(reliability)** - 长期目标是创造具有**人类相似性(human-likeness)** 的**人工智能(AI)** 智能体,但现有方法未能很好地平衡任务性能与人类行为对齐
🔧 核心方法
- 提出**分层宏动作量化(Hierarchical Macro Action Quantization, HiMAQ)** 框架,包含两个连续级别的**向量量化(vector quantization)** - 低层量化将输入动作映射到**细粒度子动作簇(fine-grained subaction clusters)**,高层量化将这些子动作簇聚合为**动作簇(action clusters)** - 从**人类演示(human demonstrations)** 中编码**宏动作(macro actions)**,使智能体预测与人类行为紧密对齐的动作序列,同时最大化奖励
💡 核心创新
- **首创性**:首次引入**分层(hierarchical)** 结构对宏动作进行量化,相比非分层基线**MAQ**,显著提升了人类相似性分数 - **性能权衡**:在保持与先前RL智能体相当或更优的任务成功率的同时,实现了更高的人类行为对齐度 - **算法通用性**:该方法可无缝集成到多种RL算法(如**IQL、SAC、RLPD**)中,验证了其泛化能力
🏆 总体贡献
- 提出一种新颖的**人类似RL框架(Human-like RL framework)**,为提升智能体行为可解释性提供了新途径 - 在**D4RL基准(D4RL benchmarks)** 上,分层方法在人类相似性指标上大幅超越非分层基线,且成功率不降 - 开源评估结果和算法集成,推动**人类-机器一致性(human-machine alignment)** 社区的研究进展