RAD:DeepSeek解读版(后续lz再细品)
RAD通过。
·
论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》深度解析
1. 核心创新点
-
3D高斯泼溅(3DGS)与强化学习的结合
- 首次将3D高斯泼溅技术(3D Gaussian Splatting)用于构建高保真闭环训练环境,替代传统基于游戏引擎的仿真器(如CARLA),显著提升渲染效率(实时性)与场景真实感。
- 通过3DGS生成大规模合成数据,减少对真实驾驶数据的依赖,同时支持动态场景的快速重建。
- 泼溅这个翻译还是有点问题。。。
-
IL与RL的协同训练框架
- 三阶段训练范式:
- 感知预训练:通过地图与交通参与者标注初始化BEV特征。
- 规划预训练:利用IL模仿人类驾驶行为,初始化动作分布。
- 强化后训练:结合RL优化安全性与泛化性,IL作为正则化项保持人类驾驶的平滑性。
- 解决IL的因果混淆问题(仅学相关关系)和RL的行为偏离问题(如动作抖动)。
- 三阶段训练范式:
-
动作空间与奖励设计的优化
- 分解的动作空间:将动作分为横向(转向)和纵向(速度)独立控制,降低探索复杂度。
- 多源奖励函数:动态碰撞、静态碰撞、位置偏差、航向偏差四类奖励,结合密集辅助目标(如偏向减速或转向)加速RL收敛。
- 优势估计分解:横向和纵向动作独立优化,提升策略稳定性(基于PPO框架)。
2. 技术优势
- 安全性提升:在闭环测试中,RAD的碰撞率(CR)相比IL方法降低3倍(0.089 vs. 0.270-0.341),尤其在动态障碍物避让(DCR 0.080)和静态障碍物避让(SCR 0.009)表现优异。
- 泛化能力:通过3DGS生成多样化场景(如密集交通、极端天气),策略在未见过的长尾场景中表现稳健。
- 训练效率:动作空间分解和辅助目标设计使RL收敛速度提升,实验显示4:1的RL-IL混合比例达到最优平衡(CR最低且轨迹平滑性最佳)。
- 工程落地潜力:与地平线征程系列芯片协同优化,形成“算法-芯片-工具链”闭环,支持实时车载部署。
3. 关键技术细节
-
3DGS环境构建:
- 从真实驾驶数据中提取关键场景(如高风险交通片段),重建为动态3D高斯模型,支持多视角实时渲染。
- 交通参与者按日志回放(非反应式),未来需引入交互式行为模型。
-
策略架构:
- BEV编码器:多视角图像→BEV特征,提取车道、障碍物等结构化信息。
- 规划头:基于Transformer的解码器,融合场景特征(地图、代理、图像)生成动作分布。
- 值函数分解:横向和纵向独立估计累积奖励,支持细粒度策略优化。
-
奖励函数设计:
- 动态碰撞奖励:基于障碍物位置调整纵向动作(如前方碰撞优先减速)。
- 静态碰撞奖励:基于障碍物方位调整横向动作(如左侧障碍物优先右转)。
- 位置/航向偏差奖励:通过专家轨迹引导策略对齐人类驾驶习惯。
4. 实验与结果
- 数据集:2000小时真实驾驶数据,4305个高风险3DGS场景(3968训练,337测试)。
- 评估指标:
- 安全性:碰撞率(CR)、动态碰撞率(DCR)、静态碰撞率(SCR)。
- 轨迹一致性:平均偏差距离(ADD)、位置偏差率(PDR)、航向偏差率(HDR)。
- 驾驶平滑性:纵向/横向加速度变化率(Jerk)。
- 对比实验:
- RAD在CR指标上显著优于VAD、GenAD、VADv2等IL方法(0.089 vs. 0.270-0.341)。
- 消融实验验证RL-IL混合比例(4:1最优)、奖励组件(全奖励最优)、辅助目标(提升安全性)的必要性。
5. 相关研究对比
技术方向 | 对比论文 | RAD的改进 |
---|---|---|
动态场景重建 | StreetGaussians (ECCV 2024) | 首次将3DGS用于RL训练环境,而非仅闭环评估。 |
端到端AD | UniAD (CVPR 2023)、VADv2 (2024) | 从IL转向RL+IL混合训练,解决因果混淆与开环-闭环差距。 |
强化学习框架 | PPO (Schulman et al. 2017) | 分解动作空间与优势估计,设计辅助目标加速收敛。 |
仿真器 | CARLA (CoRL 2017) | 3DGS提供更高保真渲染,支持端到端传感器模拟(无需完美感知输入)。 |
6. 局限性与未来方向
- 当前限制:
- 3DGS环境中的交通参与者无反应性(仅日志回放),无法模拟交互行为。
- 对非刚性物体(如行人)和低光照场景的渲染精度不足。
- 未来工作:
- 引入反应式交通参与者模型(如基于博弈论的交互策略)。
- 结合世界模型(World Model)提升长尾场景泛化能力。
- 优化3DGS的实时渲染与硬件加速(如地平线征程芯片适配)。
7. 总结与影响
RAD通过3DGS+RL+IL的融合,为端到端自动驾驶提供了一种高效、安全的训练范式。其技术贡献不仅体现在算法性能提升(如3倍碰撞率降低),更推动了自动驾驶训练从依赖真实数据向合成数据驱动的范式转变。地平线公司通过此研究进一步巩固了在“感知-决策-芯片”全栈技术生态中的领先地位,为L4级自动驾驶的落地提供了新思路。
更多推荐
所有评论(0)