该论文旨在解决自主系统(autonomous systems)在线意图预测(online intention prediction)中的关键问题:
- 如何在系统动力学(system dynamics)或目标函数(objective function)包含未知参数时,实时估计时变(time-varying)的目标状态(goal state)
- 传统方法难以在复杂环境下实现自适应(adaptive)且准确的实时预测
论文采用以下具体技术方法:
- 将问题形式化为逆最优控制/逆强化学习(inverse optimal control / inverse reinforcement learning)任务
- 将意图(intention)建模为目标函数中的参数(parameter)
- 采用移动时域策略(shifting horizon strategy)来折扣过时信息(discount outdated information)
- 开发在线控制知情学习(online control-informed learning)方法,实现高效梯度计算(gradient computation)和在线参数更新(online parameter updates)
论文的核心创新点在于:
- 首次提出**控制知情学习(control-informed learning)**框架,将控制理论(control theory)与在线学习(online learning)深度融合
- 开发**移动时域参数估计(shifting horizon parameter estimation)**机制,专门处理时变意图(time-varying intention)的跟踪问题
- 实现**在线梯度计算优化(online gradient computation optimization)**,在保证预测精度的同时显著降低计算复杂度(computational complexity)
- 能够同时处理**系统动力学未知(unknown system dynamics)**和**目标参数未知(unknown objective parameters)**的双重不确定性
论文对该领域的整体贡献包括:
- 提出首个能够实时跟踪时变意图的在线预测框架(online prediction framework)
- 通过四旋翼无人机(quadrotor drone)硬件实验验证了方法在真实噪声环境(noisy environments)下的有效性
- 为自主系统的**人机交互(human-robot interaction)**和**协同控制(cooperative control)**提供了新的理论工具
- 推动了逆强化学习(inverse reinforcement learning)从离线批处理(offline batch processing)向在线自适应(online adaptive)应用的范式转变