- 解决现有**占用引导(occupancy-guided)** 方法依赖**浅层条件机制** 和**参考帧依赖视频合成** 的问题,限制了从任意BEV布局进行细粒度控制的能力
- 自动驾驶**端到端学习** 中需要高保真可控合成数据,尤其针对长尾**安全关键场景(safety-critical scenarios)**
- 现有方法难以支持**跨数据集(cross-dataset)** 和用户自定义BEV输入,且无法适应可扩展的仿真需求
- 提出**AnyScene** 框架,包含两个核心模块:**时空占用扩散Transformer(Spatial-Temporal Occupancy Diffusion Transformer)** 和**几何接地视图扩展(Geometry-Grounded View Expansion)**
- **时空占用扩散Transformer** 以自回归方式联合标记BEV和占用特征,从BEV布局生成语义占用序列
- **几何接地视图扩展** 将占用视为规范空间表示,以**无参考帧(reference-free)** 和自回归方式合成时间一致的多视图驾驶视频,支持推理时灵活相机配置
- **统一占用为中心框架**:首次将**时空占用扩散Transformer** 与**几何接地视图扩展** 结合,实现从任意BEV布局到多视图视频的端到端生成
- **高度可控性**:支持**跨数据集(cross-dataset)** 和用户自定义BEV输入,以及**长时序生成(long-horizon generation)**
- **参考帧无关(reference-free)**:视频合成不依赖参考帧,提升泛化能力并支持灵活相机配置
- **可测量下游收益**:生成的场景数据能有效提升**稀疏视图3D重建(sparse-view 3D reconstruction)** 等下游任务
- 在**占用(occupancy)** 和**视频生成(video generation)** 任务上达到**SOTA(state-of-the-art)** 性能
- 展现出对**未见布局(unseen layouts)** 和**自定义布局(customized layouts)** 的强泛化能力
- 为自动驾驶场景生成提供了一种**可扩展、高度可控** 的新范式,促进安全关键场景数据合成
- 开源框架有望加速**端到端自动驾驶(end-to-end autonomous driving)** 研究,尤其是在数据稀缺的长尾场景