- 托卡马克等离子体形状控制需要**实时控制器(real-time controller)** 跟踪动态变化的形状目标,同时容忍**诊断故障(diagnostic failures)**
- 经典方法将问题分解为**平衡重建(equilibrium reconstruction)** 和**线性控制器(linear controller)**,均假设固定且完全运行的传感器集,无法同时处理动态跟踪和传感器缺失
- 现有方法在面对传感器故障时需要额外备用控制器或模式切换逻辑,缺乏鲁棒性
- 提出基于**强化学习(reinforcement learning)** 的智能体,在高保真托卡马克模拟器**NSFsim** (配置为DIII-D)上训练,使用120个实验等离子体形状的精选数据集
- 训练时每0.25秒将形状目标重新采样为随机阶跃变化,覆盖全形状包络;每回合随机屏蔽30%的**磁传感器(magnetic sensors)**,使单策略对任意传感器子集鲁棒
- 采用**非对称演员-评论家(asymmetric actor-critic)** 架构:评论家(critic)拥有特权的**平衡信息(equilibrium information)** 以改善部分可观测性下的价值估计;演员(actor)网络附加**辅助形状重建头(auxiliary shape reconstruction head)**,实现从原始诊断到形状的端到端重建并作为可解释性工具
- 政策直接命令**线圈执行器(coil actuators)**,在测试时零样本追踪动态形状序列
- **同时解决两大挑战**:强化学习智能体能跟踪动态变化的形状目标,并对任意传感器子集(因诊断丢失)鲁棒,无需备用控制器或模式切换逻辑
- **单策略通用性**:训练时随机掩码30%传感器,使得单一策略在测试时可处理任意子集,显著简化系统设计
- **非对称演员-评论家架构**:利用特权信息(完整平衡状态)改进价值函数估计,缓解部分可观测性带来的问题,这是首次在等离子体形状控制中应用此类架构
- **辅助形状重建头**:不仅实现端到端形状重建,还作为政策分析的可解释性工具,揭示智能体内部表示
- 为托卡马克**动态等离子体形状控制(dynamic plasma shape control)** 提供了一种基于强化学习的新范式,同时实现动态跟踪和传感器故障鲁棒性
- 在模拟中对静态配置达到**平均形状误差2.01 cm**,动态轨迹跟踪在模拟和物理设备DIII-D上得到定性验证
- 策略成功**直接迁移(transfer)** 到实验DIII-D放电(执行两个动态形状机动)和独立的GSevolve模拟器,展示了良好的泛化能力
- 提供了对任意传感器子集的鲁棒性,显著提高了实际托卡马克控制系统的可靠性和安全性