← 返回论文列表

RadiusFPS: 基于球形体素剪枝的CPU和GPU高效最远点采样
RadiusFPS: Efficient Farthest Point Sampling on CPUs and GPUs via Spherical Voxel Pruning

作者: Ziyang Yu, Xiang Li, Qiong Chang 等4人
arXiv: 2606.06255v1
分类: cs.RO, cs.CV, cs.DC
📝 论文摘要
点云是机器人感知的主要感官表示形式,支撑着基于激光雷达的自动驾驶、同步定位与地图构建以及导航。在这些流程中,最远点采样是最著名的下采样算子,因其均匀覆盖特性保留了后续感知所依赖的几何结构。然而,经典FPS的大时间复杂度难以适应现代3D传感器每秒百万点级别的数据率,使其成为与机器人系统的实时性和有限机载计算预算相冲突的主要延迟瓶颈。为此,我们提出RadiusFPS——一种基于球体体素剪枝的FPS加速框架,在相同初始化和断点策略下保留了标准FPS更新规则。通过使用球体体素对点云进行索引,RadiusFPS推导出保守的几何边界,在每次迭代中剪枝冗余的距离计算,并辅以逐坐标点跳过测试来移除残余更新。我们进一步引入RadiusFPS-G,一种基于线程束级别的GPU实现,将体素选择、剪枝和距离更新融合为内存合并的内核,消除了昂贵的全局内存往返。在室内基准和室外激光雷达基准上,RadiusFPS-G相比基于GPU的FPS实现了高达2.5倍的加速,在所评估的方法中与QuickFPS相当或更优,同时GPU内存消耗约为其一半,且分割精度相当。当与基于学习的FastPoint采样器结合时,所得流程在所有评估配置中实现了最快的端到端推理。这些特性使得高质量的FPS式采样对于受延迟和内存约束的机器人视觉具有实用性。

📊 核心分析

🎯 研究动机
- 解决**最远点采样(Farthest Point Sampling, FPS)** 在机器人感知系统中计算复杂度过高、成为延迟瓶颈的问题 - 现代3D传感器每秒生成百万级点云,经典FPS的时间复杂度随点云规模增长而急剧上升,难以满足实时性和有限板载计算资源的要求 - 现有加速方法(如QuickFPS)要么依赖学习、要么牺牲采样质量,无法在保持标准FPS更新规则的同时实现高效加速
🔧 核心方法
- 提出**RadiusFPS** 框架,基于**球形体素剪枝(spherical voxel pruning)** 对点云进行索引,在每次迭代中推导**保守几何界(conservative geometric bound)**,剪除冗余距离计算 - 引入**坐标点跳过测试(coordinate-wise point-skip test)**,进一步消除残余的冗余更新 - 设计**RadiusFPS-G**,一种线程束级(warp-level)GPU实现,将体素选择、剪枝和距离更新融合为**内存合并(memory-coalesced)** 的核函数,减少全局内存往返
💡 核心创新
- **保持标准FPS更新规则**:在相同初始化和平局策略下,RadiusFPS输出的采样点与经典FPS完全一致,而现有加速方法通常改变采样结果 - **无学习、轻量级**:无需额外训练数据或学习模型,直接利用几何剪枝实现加速,便于部署在资源受限的机器人平台 - **高效GPU实现融合**:RadiusFPS-G通过线程束级融合和内存合并优化,显著降低GPU内存使用(约为QuickFPS的一半)并提升速度
🏆 总体贡献
- 在室内(S3DIS、ScanNet)和室外LiDAR(SemanticKITTI)基准上,RadiusFPS-G相比GPU上的经典FPS实现**最高2.5倍加速**,且分割精度相当 - 与其他方法(如QuickFPS)相比,RadiusFPS-G速度相当或更快,但**GPU内存消耗减少约一半** - 与基于学习的FastPoint采样器结合后,形成**最快的端到端推理管线**,使高质量FPS风格采样在延迟和内存受限的机器人视觉中变得实用