← 返回论文列表

基于结构利用的双重控制实现未知环境中的实时自动优化以兼顾探索与利用
Real-Time Auto-Optimization in Unknown Environments via Structure-Exploiting Dual Control for Exploration and Exploitation

作者: Shiying Dong, Haoyang Yang, Qiwei Liu 等4人
arXiv: 2605.22431v1
分类: cs.RO
📝 论文摘要
本文提出了一种用于未知环境中自动优化问题的快速数值双控探索与利用(DCEE)方法。在自动优化问题中,最优运行条件先验未知,且可能随环境变化。与经典双控技术类似,计算负担仍是DCEE主动学习中的主要关注点。现有DCEE方法提供了原则性的探索-利用目标函数,但主要通过标准优化包或显式梯度型更新律实现,未充分挖掘DCEE的数值结构。本文表明,DCEE中的奖励函数具有固有的凸-非线性结构,其中利用项和探索项构成一个配备凸外部损失的统一非线性残差映射。得益于该结构,通过仅线性化非线性残差映射同时保留凸外部损失,开发了一种结构利用型数值方法。由此,每个子问题转化为可稳定求解的结构化凸形式。所得的广义高斯-牛顿海森近似是半正定的,且仅依赖于一阶导数,从而支持快速在线计算。所提方法在车辆巡航自动优化问题上进行了评估,并与现有方法进行了比较。仿真和硬件在环实验结果表明,所提方法提升了控制性能,并实现了约一个数量级的加速,在典型车辆嵌入式CPU上最大计算时间仅为83微秒(微秒级)。

📊 核心分析

🎯 研究动机
- 解决未知环境中的**自动优化(auto-optimization)** 问题,最优运行条件未知且随环境变化 - 现有**双控制探索与利用(Dual Control for Exploration and Exploitation, DCEE)** 方法计算负担大,主要依赖标准优化包或显式梯度更新律,未充分利用DCEE的数值结构 - 实时性要求高,现有方法难以在嵌入式平台上实现微秒级在线计算
🔧 核心方法
- 揭示**奖励函数(reward function)** 具有**凸-非线性结构(convex-over-nonlinear structure)**,其中探索与利用项构成统一非线性残差映射,外层为凸损失 - 提出**结构利用数值方法(structure-exploiting numerical method)**,仅线性化非线性残差映射,保持凸外损失,将每个子问题转化为结构化凸形式 - 使用**广义高斯-牛顿(Gauss-Newton)** 海森近似,保证半正定性且仅依赖一阶导数,支持快速在线计算
💡 核心创新
- **首次利用DCEE的凸-非线性结构**,将子问题转化为结构化凸优化,避免传统非线性求解的复杂性 - **高效线性化策略**:仅线性化残差映射而不破坏凸外损失,确保子问题可靠求解 - **计算速度提升约一个数量级**,在典型车辆嵌入式CPU上最大计算时间仅83 μs,实现微秒级实时控制
🏆 总体贡献
- 为未知环境中的**自动优化** 提供了一种低复杂度实时DCEE方法,解决了计算瓶颈 - 通过**结构利用** 思想,将理论上的探索-利用权衡转化为可实际部署的快速算法 - 通过车辆巡航问题的仿真与硬件在环实验验证,证明了方法在控制性能与计算效率上的显著优势