← 返回论文列表

DINO-Explorer:基于自运动补偿语义预测编码的主动水下探索系统
DINO-Explorer: Active Underwater Discovery via Ego-Motion Compensated Semantic Predictive Coding

作者: Yuhan Jin, Nayari Marie Lessa, Mariela De Lucas Alvarez 等7人
arXiv: 2604.12933v1
分类: cs.RO, cs.CV
📝 论文摘要
海洋生态系统退化亟需持续且科学选择性的水下监测。然而,大多数自主水下航行器仅作为被动数据记录器运行,通过离线回放采集海量视频数据,常错失具有高科学价值的瞬态事件。要实现主动感知,需要一种能够突显重要现象、同时抑制机动引发视觉变化的因果性在线信号。我们提出DINO-Explorer——一种由持续语义惊奇信号驱动的新颖性感知框架。该框架在冻结的DINOv3基础模型潜空间内运行,通过轻量级动作条件递归预测器实现短时域语义演化预测。受传出副本启发的模块利用全局池化光流消除自诱导视觉变化,同时保留真实环境新颖性。我们在不同遥测约束下,通过异步事件分级任务评估该信号性能。实验表明,DINO-Explorer能提供鲁棒且带宽高效的注意力机制:在固定工作点,系统保留78.8%事后人工复核共识事件,触发确认率达56.8%,有效突显任务相关现象。关键的是,自我运动补偿机制相较于未补偿基线可抑制45.5%的误报。在回放侧帕累托消融研究中,DINO-Explorer在验证峰值F1与遥测带宽边界上持续保持优势,在选定工作点将遥测带宽降低48.2%的同时维持62.2%的峰值F1分数,成功将数据传输聚焦于人工验证的新颖事件周围。

📊 核心分析

🎯 研究动机
该论文旨在解决自主水下航行器(AUV)被动记录数据时,容易错过具有高科学价值的瞬态事件的问题。研究背景是海洋生态系统退化需要持续、科学选择性的水下监测,而现有AUV大多作为被动数据记录器运行,无法进行主动感知。
🔧 核心方法
论文提出了DINO-Explorer框架,其核心方法包括: - 利用冻结的DINOv3基础模型的潜在空间(latent space)进行特征提取。 - 采用轻量级的、动作条件(action-conditioned)的循环预测器(recurrent predictor)来预测短时域语义演化。 - 设计了一个受传出副本(efference copy)启发的模块,利用全局池化的光流(globally pooled optical flow)来抵消自身运动引起的视觉变化,同时不抑制真实的环境新奇性。 - 在变体遥测约束下,将该信号用于异步事件分类的下游任务评估。
💡 核心创新
论文的核心创新点在于: - 提出了一个由连续语义惊奇(semantic surprise)信号驱动的、新颖性感知(novelty-aware)的主动感知框架,实现了从被动记录到主动发现的转变。 - 创新性地将自身运动补偿(ego-motion compensation)机制整合到语义预测编码(semantic predictive coding)中,通过动作条件预测和光流补偿,有效区分了自身运动伪影和真实环境变化。 - 与未补偿的基线相比,该方法将误报(false positives)减少了45.5%,在保持高事件召回率的同时,显著提高了带宽效率(bandwidth efficiency)。
🏆 总体贡献
论文对该领域的总体贡献是: - 为水下自主发现提供了一个鲁棒且带宽高效的注意力机制(attention mechanism),能够有效突出显示任务相关的现象。 - 在选定的工作点,系统在保持62.2%峰值F1分数(peak F1 score)的同时,将遥测带宽(telemetry bandwidth)减少了48.2%,成功将数据传输集中在人工验证的新奇事件周围。 - 通过严格的评估(包括帕累托消融研究(Pareto ablation study)),证明了DINO-Explorer在已验证的峰值F1与遥测带宽边界上具有鲁棒的主导性,为在线、主动的水下科学监测提供了可行的解决方案。