具有任意传感器子集的动态等离子体形状控制

📝 论文摘要

托卡马克等离子体形状控制需要实时控制器在容忍诊断故障的同时跟踪动态变化的形状目标。经典方法将问题分解为平衡重建与线性控制器，并假设传感器组固定且完全工作。我们提出了一种强化学习智能体，可同时解决这两个局限性。该智能体在针对DIII-D配置的高保真托卡马克模拟器NSFsim中训练，使用包含120个实验等离子体形状的精选数据集。形状目标每0.25秒重新采样为随机阶跃变化，使智能体能够经历整个形状包络内的多样化过渡。测试时，智能体以零样本方式跟踪动态形状序列；在模拟中的静态配置上，其平均形状误差达到2.01厘米，并在模拟和实际装置上定性展示了动态轨迹跟踪能力。诊断信号丢失机制在每个回合中随机屏蔽30%的磁传感器，产生的单一策略对任意传感器子集均具有鲁棒性，无需备用控制器或模式切换逻辑。具有特权平衡信息的非对称演员-评论家架构改进了部分可观测性下的价值估计；演员网络上的辅助形状重建头实现了从原始诊断信号到形状的端到端重建，并作为策略分析的可解释性工具。该策略可迁移至实验性DIII-D等离子体放电（直接指令线圈执行器完成两次动态形状机动）及独立的GSevolve模拟器。

🎯 研究动机

- 托卡马克等离子体形状控制需要**实时控制器(real-time controller)** 跟踪动态变化的形状目标，同时容忍**诊断故障(diagnostic failures)** - 经典方法将问题分解为**平衡重建(equilibrium reconstruction)** 和**线性控制器(linear controller)**，均假设固定且完全运行的传感器集，无法同时处理动态跟踪和传感器缺失 - 现有方法在面对传感器故障时需要额外备用控制器或模式切换逻辑，缺乏鲁棒性

🔧 核心方法

- 提出基于**强化学习(reinforcement learning)** 的智能体，在高保真托卡马克模拟器**NSFsim** (配置为DIII-D)上训练，使用120个实验等离子体形状的精选数据集 - 训练时每0.25秒将形状目标重新采样为随机阶跃变化，覆盖全形状包络；每回合随机屏蔽30%的**磁传感器(magnetic sensors)**，使单策略对任意传感器子集鲁棒 - 采用**非对称演员-评论家(asymmetric actor-critic)** 架构：评论家(critic)拥有特权的**平衡信息(equilibrium information)** 以改善部分可观测性下的价值估计；演员(actor)网络附加**辅助形状重建头(auxiliary shape reconstruction head)**，实现从原始诊断到形状的端到端重建并作为可解释性工具 - 政策直接命令**线圈执行器(coil actuators)**，在测试时零样本追踪动态形状序列

💡 核心创新

- **同时解决两大挑战**：强化学习智能体能跟踪动态变化的形状目标，并对任意传感器子集（因诊断丢失）鲁棒，无需备用控制器或模式切换逻辑 - **单策略通用性**：训练时随机掩码30%传感器，使得单一策略在测试时可处理任意子集，显著简化系统设计 - **非对称演员-评论家架构**：利用特权信息（完整平衡状态）改进价值函数估计，缓解部分可观测性带来的问题，这是首次在等离子体形状控制中应用此类架构 - **辅助形状重建头**：不仅实现端到端形状重建，还作为政策分析的可解释性工具，揭示智能体内部表示

🏆 总体贡献

- 为托卡马克**动态等离子体形状控制(dynamic plasma shape control)** 提供了一种基于强化学习的新范式，同时实现动态跟踪和传感器故障鲁棒性 - 在模拟中对静态配置达到**平均形状误差2.01 cm**，动态轨迹跟踪在模拟和物理设备DIII-D上得到定性验证 - 策略成功**直接迁移(transfer)** 到实验DIII-D放电（执行两个动态形状机动）和独立的GSevolve模拟器，展示了良好的泛化能力 - 提供了对任意传感器子集的鲁棒性，显著提高了实际托卡马克控制系统的可靠性和安全性

具有任意传感器子集的动态等离子体形状控制
Dynamic Plasma Shape Control with Arbitrary Sensor Subsets

📊 核心分析

具有任意传感器子集的动态等离子体形状控制 Dynamic Plasma Shape Control with Arbitrary Sensor Subsets

📊 核心分析

具有任意传感器子集的动态等离子体形状控制
Dynamic Plasma Shape Control with Arbitrary Sensor Subsets