论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》深度解析

1. 核心创新点
  1. 3D高斯泼溅(3DGS)与强化学习的结合

    • 首次将3D高斯泼溅技术(3D Gaussian Splatting)用于构建高保真闭环训练环境,替代传统基于游戏引擎的仿真器(如CARLA),显著提升渲染效率(实时性)与场景真实感。
    • 通过3DGS生成大规模合成数据,减少对真实驾驶数据的依赖,同时支持动态场景的快速重建。
    • 泼溅这个翻译还是有点问题。。。
  2. IL与RL的协同训练框架

    • 三阶段训练范式
      • 感知预训练:通过地图与交通参与者标注初始化BEV特征。
      • 规划预训练:利用IL模仿人类驾驶行为,初始化动作分布。
      • 强化后训练:结合RL优化安全性与泛化性,IL作为正则化项保持人类驾驶的平滑性。
    • 解决IL的因果混淆问题(仅学相关关系)和RL的行为偏离问题(如动作抖动)。
  3. 动作空间与奖励设计的优化

    • 分解的动作空间:将动作分为横向(转向)和纵向(速度)独立控制,降低探索复杂度。
    • 多源奖励函数:动态碰撞、静态碰撞、位置偏差、航向偏差四类奖励,结合密集辅助目标(如偏向减速或转向)加速RL收敛。
    • 优势估计分解:横向和纵向动作独立优化,提升策略稳定性(基于PPO框架)。

2. 技术优势
  • 安全性提升:在闭环测试中,RAD的碰撞率(CR)相比IL方法降低3倍(0.089 vs. 0.270-0.341),尤其在动态障碍物避让(DCR 0.080)和静态障碍物避让(SCR 0.009)表现优异。
  • 泛化能力:通过3DGS生成多样化场景(如密集交通、极端天气),策略在未见过的长尾场景中表现稳健。
  • 训练效率:动作空间分解和辅助目标设计使RL收敛速度提升,实验显示4:1的RL-IL混合比例达到最优平衡(CR最低且轨迹平滑性最佳)。
  • 工程落地潜力:与地平线征程系列芯片协同优化,形成“算法-芯片-工具链”闭环,支持实时车载部署。

3. 关键技术细节
  • 3DGS环境构建

    • 从真实驾驶数据中提取关键场景(如高风险交通片段),重建为动态3D高斯模型,支持多视角实时渲染。
    • 交通参与者按日志回放(非反应式),未来需引入交互式行为模型。
  • 策略架构

    • BEV编码器:多视角图像→BEV特征,提取车道、障碍物等结构化信息。
    • 规划头:基于Transformer的解码器,融合场景特征(地图、代理、图像)生成动作分布。
    • 值函数分解:横向和纵向独立估计累积奖励,支持细粒度策略优化。
  • 奖励函数设计

    • 动态碰撞奖励:基于障碍物位置调整纵向动作(如前方碰撞优先减速)。
    • 静态碰撞奖励:基于障碍物方位调整横向动作(如左侧障碍物优先右转)。
    • 位置/航向偏差奖励:通过专家轨迹引导策略对齐人类驾驶习惯。

4. 实验与结果
  • 数据集:2000小时真实驾驶数据,4305个高风险3DGS场景(3968训练,337测试)。
  • 评估指标
    • 安全性:碰撞率(CR)、动态碰撞率(DCR)、静态碰撞率(SCR)。
    • 轨迹一致性:平均偏差距离(ADD)、位置偏差率(PDR)、航向偏差率(HDR)。
    • 驾驶平滑性:纵向/横向加速度变化率(Jerk)。
  • 对比实验
    • RAD在CR指标上显著优于VAD、GenAD、VADv2等IL方法(0.089 vs. 0.270-0.341)。
    • 消融实验验证RL-IL混合比例(4:1最优)、奖励组件(全奖励最优)、辅助目标(提升安全性)的必要性。

5. 相关研究对比
技术方向 对比论文 RAD的改进
动态场景重建 StreetGaussians (ECCV 2024) 首次将3DGS用于RL训练环境,而非仅闭环评估。
端到端AD UniAD (CVPR 2023)、VADv2 (2024) 从IL转向RL+IL混合训练,解决因果混淆与开环-闭环差距。
强化学习框架 PPO (Schulman et al. 2017) 分解动作空间与优势估计,设计辅助目标加速收敛。
仿真器 CARLA (CoRL 2017) 3DGS提供更高保真渲染,支持端到端传感器模拟(无需完美感知输入)。

6. 局限性与未来方向
  • 当前限制
    • 3DGS环境中的交通参与者无反应性(仅日志回放),无法模拟交互行为。
    • 对非刚性物体(如行人)和低光照场景的渲染精度不足。
  • 未来工作
    • 引入反应式交通参与者模型(如基于博弈论的交互策略)。
    • 结合世界模型(World Model)提升长尾场景泛化能力。
    • 优化3DGS的实时渲染与硬件加速(如地平线征程芯片适配)。

7. 总结与影响

RAD通过3DGS+RL+IL的融合,为端到端自动驾驶提供了一种高效、安全的训练范式。其技术贡献不仅体现在算法性能提升(如3倍碰撞率降低),更推动了自动驾驶训练从依赖真实数据向合成数据驱动的范式转变。地平线公司通过此研究进一步巩固了在“感知-决策-芯片”全栈技术生态中的领先地位,为L4级自动驾驶的落地提供了新思路。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐