- 大多数**强化学习(RL)** 智能体仍以奖励驱动,其行为与人类不同,从而限制了**可解释性(interpretability)** 和**可靠性(reliability)**
- 长期目标是创造具有**人类相似性(human-likeness)** 的**人工智能(AI)** 智能体,但现有方法未能很好地平衡任务性能与人类行为对齐
- 提出**分层宏动作量化(Hierarchical Macro Action Quantization, HiMAQ)** 框架,包含两个连续级别的**向量量化(vector quantization)**
- 低层量化将输入动作映射到**细粒度子动作簇(fine-grained subaction clusters)**,高层量化将这些子动作簇聚合为**动作簇(action clusters)**
- 从**人类演示(human demonstrations)** 中编码**宏动作(macro actions)**,使智能体预测与人类行为紧密对齐的动作序列,同时最大化奖励
- **首创性**:首次引入**分层(hierarchical)** 结构对宏动作进行量化,相比非分层基线**MAQ**,显著提升了人类相似性分数
- **性能权衡**:在保持与先前RL智能体相当或更优的任务成功率的同时,实现了更高的人类行为对齐度
- **算法通用性**:该方法可无缝集成到多种RL算法(如**IQL、SAC、RLPD**)中,验证了其泛化能力
- 提出一种新颖的**人类似RL框架(Human-like RL framework)**,为提升智能体行为可解释性提供了新途径
- 在**D4RL基准(D4RL benchmarks)** 上,分层方法在人类相似性指标上大幅超越非分层基线,且成功率不降
- 开源评估结果和算法集成,推动**人类-机器一致性(human-machine alignment)** 社区的研究进展