- 自动驾驶向**端到端学习(end-to-end learning)** 转变,但真实世界驾驶数据昂贵且存在**场景偏差(scene bias)**
- **真实-合成协同训练(real-synthetic co-training)** 虽可行,但简单混合所有合成数据效率低下,导致**分布偏移(distribution shift)**
- 在有限训练预算下优化数据混合比例是一个**关键但尚未充分探索的问题**
- 需要针对**场景类型和数量** 提供清晰指导,动态调整训练数据混合
- 提出**AutoScale** 全自动闭环数据引擎,统一场景表示、数据混合优化与检索、模型训练与评估
- 使用**图正则化自编码器(Graph Regularized AutoEncoder, Graph-RAE)** 对驾驶场景进行表示学习
- 引入**聚类感知梯度上升(Cluster-aware Gradient Ascent, Cluster-GA)** 进行聚类级重要性估计与重新加权
- 执行**聚类引导向量检索(cluster-guided vector retrieval)** 从合成数据中选择高价值样本
- **首次** 将数据混合视为**动态优化过程**,通过闭环评估反馈迭代调整训练数据构成
- **Graph-RAE** 利用图结构编码场景关系,优于传统自编码器表示
- **Cluster-GA** 基于梯度信息自适应调整每个聚类的重要性权重,避免人为预设
- 在**有限预算** 下,相比常规协同训练和跨域基线,用更少合成样本获得更好性能
- 为自动驾驶领域提供了一种**自动化数据混合优化范式**,缓解真实数据稀缺与合成数据分布偏移
- 在**NavSim** 基准上验证了有效性,达到更优性能且节省合成数据开销
- 提出的**闭环数据引擎** 思路可推广至其他依赖于数据混合的**领域适应(domain adaptation)** 任务
- 推动了**真实-合成协同训练** 在端到端自动驾驶中的实用化进程