AnyScene：迈向在任何地点及更远范围的高度可控驾驶场景生成

📝 论文摘要

生成高保真且可控的合成数据对于推动端到端自动驾驶的发展至关重要，尤其适用于应对罕见安全关键场景的长尾问题。现有的占用引导方法通常依赖于浅层条件机制和参考帧相关的视频合成技术，这限制了从任意鸟瞰图布局实现细粒度可控性，并制约了其在大规模仿真中的适用性。本文提出AnyScene——一个统一的以占用为中心的驾驶场景生成框架。AnyScene通过空间-时间占用扩散自回归变换器，从鸟瞰图布局生成语义占用序列，该变换器以自回归方式联合标记鸟瞰图与占用特征。该设计实现了跨数据集和用户自定义鸟瞰图输入的精确可控性，同时天然支持长时域生成。基于生成的占用，几何引导视图扩展模块将占用视为规范空间表征，以无参考帧和自回归方式合成时序一致的多视角驾驶视频，支持推理时的灵活相机配置。大量实验表明，AnyScene在占用生成和视频生成任务中均达到最优性能。该框架展现出对未见布局和自定义布局的强大泛化能力，并为稀疏视角三维重建等下游任务提供了可量化的性能提升。

🎯 研究动机

- 解决现有**占用引导(occupancy-guided)** 方法依赖**浅层条件机制** 和**参考帧依赖视频合成** 的问题，限制了从任意BEV布局进行细粒度控制的能力 - 自动驾驶**端到端学习** 中需要高保真可控合成数据，尤其针对长尾**安全关键场景(safety-critical scenarios)** - 现有方法难以支持**跨数据集(cross-dataset)** 和用户自定义BEV输入，且无法适应可扩展的仿真需求

🔧 核心方法

- 提出**AnyScene** 框架，包含两个核心模块：**时空占用扩散Transformer(Spatial-Temporal Occupancy Diffusion Transformer)** 和**几何接地视图扩展(Geometry-Grounded View Expansion)** - **时空占用扩散Transformer** 以自回归方式联合标记BEV和占用特征，从BEV布局生成语义占用序列 - **几何接地视图扩展** 将占用视为规范空间表示，以**无参考帧(reference-free)** 和自回归方式合成时间一致的多视图驾驶视频，支持推理时灵活相机配置

💡 核心创新

- **统一占用为中心框架**：首次将**时空占用扩散Transformer** 与**几何接地视图扩展** 结合，实现从任意BEV布局到多视图视频的端到端生成 - **高度可控性**：支持**跨数据集(cross-dataset)** 和用户自定义BEV输入，以及**长时序生成(long-horizon generation)** - **参考帧无关(reference-free)**：视频合成不依赖参考帧，提升泛化能力并支持灵活相机配置 - **可测量下游收益**：生成的场景数据能有效提升**稀疏视图3D重建(sparse-view 3D reconstruction)** 等下游任务

🏆 总体贡献

- 在**占用(occupancy)** 和**视频生成(video generation)** 任务上达到**SOTA(state-of-the-art)** 性能 - 展现出对**未见布局(unseen layouts)** 和**自定义布局(customized layouts)** 的强泛化能力 - 为自动驾驶场景生成提供了一种**可扩展、高度可控** 的新范式，促进安全关键场景数据合成 - 开源框架有望加速**端到端自动驾驶(end-to-end autonomous driving)** 研究，尤其是在数据稀缺的长尾场景

AnyScene：迈向在任何地点及更远范围的高度可控驾驶场景生成
AnyScene: Towards Highly Controllable Driving Scene Generation at Anywhere and Beyond

📊 核心分析

AnyScene：迈向在任何地点及更远范围的高度可控驾驶场景生成 AnyScene: Towards Highly Controllable Driving Scene Generation at Anywhere and Beyond

📊 核心分析

AnyScene：迈向在任何地点及更远范围的高度可控驾驶场景生成
AnyScene: Towards Highly Controllable Driving Scene Generation at Anywhere and Beyond