RAD：DeepSeek解读版（后续lz再细品）

RAD通过。

Felaim

757人浏览 · 2025-02-22 13:42:36

Felaim · 2025-02-22 13:42:36 发布

论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》深度解析

1. 核心创新点

3D高斯泼溅（3DGS）与强化学习的结合
- 首次将3D高斯泼溅技术（3D Gaussian Splatting）用于构建高保真闭环训练环境，替代传统基于游戏引擎的仿真器（如CARLA），显著提升渲染效率（实时性）与场景真实感。
- 通过3DGS生成大规模合成数据，减少对真实驾驶数据的依赖，同时支持动态场景的快速重建。
- 泼溅这个翻译还是有点问题。。。
IL与RL的协同训练框架
- 三阶段训练范式：
  - 感知预训练：通过地图与交通参与者标注初始化BEV特征。
  - 规划预训练：利用IL模仿人类驾驶行为，初始化动作分布。
  - 强化后训练：结合RL优化安全性与泛化性，IL作为正则化项保持人类驾驶的平滑性。
- 解决IL的因果混淆问题（仅学相关关系）和RL的行为偏离问题（如动作抖动）。
动作空间与奖励设计的优化
- 分解的动作空间：将动作分为横向（转向）和纵向（速度）独立控制，降低探索复杂度。
- 多源奖励函数：动态碰撞、静态碰撞、位置偏差、航向偏差四类奖励，结合密集辅助目标（如偏向减速或转向）加速RL收敛。
- 优势估计分解：横向和纵向动作独立优化，提升策略稳定性（基于PPO框架）。

2. 技术优势

安全性提升：在闭环测试中，RAD的碰撞率（CR）相比IL方法降低3倍（0.089 vs. 0.270-0.341），尤其在动态障碍物避让（DCR 0.080）和静态障碍物避让（SCR 0.009）表现优异。
泛化能力：通过3DGS生成多样化场景（如密集交通、极端天气），策略在未见过的长尾场景中表现稳健。
训练效率：动作空间分解和辅助目标设计使RL收敛速度提升，实验显示4:1的RL-IL混合比例达到最优平衡（CR最低且轨迹平滑性最佳）。
工程落地潜力：与地平线征程系列芯片协同优化，形成“算法-芯片-工具链”闭环，支持实时车载部署。

3. 关键技术细节

3DGS环境构建：
- 从真实驾驶数据中提取关键场景（如高风险交通片段），重建为动态3D高斯模型，支持多视角实时渲染。
- 交通参与者按日志回放（非反应式），未来需引入交互式行为模型。
策略架构：
- BEV编码器：多视角图像→BEV特征，提取车道、障碍物等结构化信息。
- 规划头：基于Transformer的解码器，融合场景特征（地图、代理、图像）生成动作分布。
- 值函数分解：横向和纵向独立估计累积奖励，支持细粒度策略优化。
奖励函数设计：
- 动态碰撞奖励：基于障碍物位置调整纵向动作（如前方碰撞优先减速）。
- 静态碰撞奖励：基于障碍物方位调整横向动作（如左侧障碍物优先右转）。
- 位置/航向偏差奖励：通过专家轨迹引导策略对齐人类驾驶习惯。

4. 实验与结果

数据集：2000小时真实驾驶数据，4305个高风险3DGS场景（3968训练，337测试）。
评估指标：
- 安全性：碰撞率（CR）、动态碰撞率（DCR）、静态碰撞率（SCR）。
- 轨迹一致性：平均偏差距离（ADD）、位置偏差率（PDR）、航向偏差率（HDR）。
- 驾驶平滑性：纵向/横向加速度变化率（Jerk）。
对比实验：
- RAD在CR指标上显著优于VAD、GenAD、VADv2等IL方法（0.089 vs. 0.270-0.341）。
- 消融实验验证RL-IL混合比例（4:1最优）、奖励组件（全奖励最优）、辅助目标（提升安全性）的必要性。

5. 相关研究对比

技术方向	对比论文	RAD的改进
动态场景重建	StreetGaussians (ECCV 2024)	首次将3DGS用于RL训练环境，而非仅闭环评估。
端到端AD	UniAD (CVPR 2023)、VADv2 (2024)	从IL转向RL+IL混合训练，解决因果混淆与开环-闭环差距。
强化学习框架	PPO (Schulman et al. 2017)	分解动作空间与优势估计，设计辅助目标加速收敛。
仿真器	CARLA (CoRL 2017)	3DGS提供更高保真渲染，支持端到端传感器模拟（无需完美感知输入）。

6. 局限性与未来方向

当前限制：
- 3DGS环境中的交通参与者无反应性（仅日志回放），无法模拟交互行为。
- 对非刚性物体（如行人）和低光照场景的渲染精度不足。
未来工作：
- 引入反应式交通参与者模型（如基于博弈论的交互策略）。
- 结合世界模型（World Model）提升长尾场景泛化能力。
- 优化3DGS的实时渲染与硬件加速（如地平线征程芯片适配）。

7. 总结与影响

RAD通过3DGS+RL+IL的融合，为端到端自动驾驶提供了一种高效、安全的训练范式。其技术贡献不仅体现在算法性能提升（如3倍碰撞率降低），更推动了自动驾驶训练从依赖真实数据向合成数据驱动的范式转变。地平线公司通过此研究进一步巩固了在“感知-决策-芯片”全栈技术生态中的领先地位，为L4级自动驾驶的落地提供了新思路。