基于模型强化学习的焦平面波前控制

Focal plane wavefront control with model-based reinforcement learning

作者: Jalo Nousiainen, Iremsu Taskin, Markus Kasper 等5人

arXiv: 2604.00993v1

分类: astro-ph.IM, cs.LG, cs.RO

📝 论文摘要

对潜在宜居系外行星的直接成像，是极大望远镜上高对比度成像仪器的主要科学目标之一。大多数此类系外行星围绕其宿主恒星近距离运行，其观测受到快速移动的大气散斑和准静态非共路像差（NCPA）的限制。传统的NCPA校正方法通常使用机械镜面探针，这会在操作过程中影响性能。本研究提出了基于机器学习的NCPA控制方法，通过利用序列相位多样性，自动检测并校正动态和静态NCPA误差。我们将先前在自适应光学中应用的强化学习扩展到焦平面控制。一种新的基于模型的强化学习算法——NCPA策略优化（PO4NCPA），将焦平面图像作为输入数据，并通过序列相位多样性确定相位校正，以优化非日冕和日冕后点扩散函数，而无需先验系统知识。此外，我们通过数值模拟地面望远镜和受水汽视宁度（动态NCPA）影响的红外成像仪上的静态NCPA误差，证明了该方法的有效性。模拟显示，PO4NCPA能够稳健地补偿静态和动态NCPA。在静态情况下，使用日冕仪时，它实现了接近最优的焦平面光抑制；不使用日冕仪时，则实现了接近最优的斯特列尔比。对于动态NCPA，它在这些指标上匹配了模态最小二乘重构结合一步延迟积分器的性能。该方法对于ELT光瞳、矢量涡旋日冕仪，以及在光子和背景噪声下仍然有效。PO4NCPA是无模型的，可以直接应用于标准成像以及任何日冕仪。其亚毫秒级的推理时间和性能也使其适用于高对比度成像之外的大气湍流实时低阶校正。

📊 核心分析

🎯 研究动机

该论文旨在解决极高对比度成像中非共光路像差(NCPA)的校正问题。研究背景是： - 直接成像宜居系外行星是极大望远镜的关键科学目标 - 此类行星靠近宿主星观测时，受快速移动的大气散斑和准静态NCPA限制 - 传统NCPA校正方法依赖机械镜面探针，会降低运行性能

🔧 核心方法

论文采用基于模型的强化学习(reinforcement learning)方法进行焦平面波前控制： - 提出新算法PO4NCPA（Policy Optimization for NCPAs） - 将焦平面图像作为输入数据，通过序列相位多样性(sequential phase diversity)确定相位校正 - 无需先验系统知识即可优化非日冕仪和日冕仪后点扩散函数(PSF) - 通过数值模拟验证方法有效性，包括地面望远镜静态NCPA和红外成像仪水汽诱导动态NCPA

💡 核心创新

论文的核心创新点包括： - 首次将强化学习应用于焦平面波前控制领域，扩展了自适应光学(AO)中强化学习的应用范围 - 提出完全无模型(model-free)的PO4NCPA算法，可直接应用于标准成像和任意日冕仪 - 能够同时校正动态和静态NCPA，无需机械探针，避免传统方法对性能的折衷 - 亚毫秒级推理时间使其适用于实时低阶大气湍流校正，超越传统高对比度成像(HCI)应用

🏆 总体贡献

论文对该领域的整体贡献为： - 为极高对比度成像提供了新的机器学习驱动NCPA控制框架 - 在静态NCPA情况下，使用日冕仪时实现近最优焦平面光抑制，无日冕仪时实现近最优斯特列尔比(Strehl) - 在动态NCPA情况下，性能匹配模态最小二乘重建结合单步延迟积分器 - 方法在ELT光瞳、矢量涡旋日冕仪(vector vortex coronagraph)及光子/背景噪声下保持有效 - 为实时波前控制开辟了新途径，具有广泛仪器适用性