写在前面&笔者的个人理解
本文提出了HE-Drive:首个模仿人类驾驶为核心的端到端自动驾驶系统,旨在生成同时具备时间一致性和舒适性的轨迹。近期研究表明,基于模仿学习的规划器和基于学习的轨迹评分器能够有效生成并选择高度模仿专家演示的准确轨迹。然而这类轨迹规划和评分器面临生成时间不一致且不舒适的轨迹的困境。为了解决上述问题,HE-Drive首先通过稀疏感知提取关键的三维空间表示,这些表示随后作为条件输入,传递给基于条件去噪扩散概率模型(DDPM)的运动规划器,生成具备时间一致性的多模态轨迹。随后,基于视觉语言模型(VLM)引导的轨迹评分器从这些候选轨迹中选择最舒适的轨迹来控制车辆,确保类人的端到端驾驶体验。实验结果表明,HE-Drive在nuScenes和OpenScene数据集上实现了SOTA性能(即比VAD减少了71%的平均碰撞率)和效率(即比SparseDrive快1.9倍),同时在真实世界数据中提供了最舒适的驾驶体验。
总结来说,本文的主要贡献如下:
图1:本文展示了HE-Drive,这是首个类人端到端驾驶系统。HE-Drive将多视角传感器数据作为输入,并在复杂场景中输出最优行驶路径。
端到端范式将感知、规划和轨迹评分任务集成到一个统一模型中,以规划目标进行优化,最近在推动自动驾驶技术发展方面展示了显著的潜力(图1a)。最新研究提出了基于模仿学习的运动规划器,它们通过大规模驾驶演示学习驾驶策略,并使用基于学习的轨迹评分器从多个预测候选轨迹中选择最安全、最准确的轨迹来控制车辆。然而,尽管现有的规划器和评分器在预测准确性方面取得了显著进展,它们仍面临生成时间不一致轨迹的挑战,即连续的预测在时间上不稳定且不一致,以及选择不舒适轨迹的问题,这些轨迹表现为连续制动,导致车辆停顿或过大的转弯曲率。
本文提出了HE-Drive,这是首个以类人驾驶为核心的端到端自动驾驶系统,旨在解决上述两个问题,如图2所示。具体而言,本文发现由基于模仿学习的规划器生成的轨迹在时间一致性方面存在的问题主要源于两个因素:时间相关性和泛化能力。首先,这些规划器依赖当前帧过去几秒的信息来预测未来轨迹,忽略了连续预测之间的相关性。其次,它们的性能受到离线收集的专家轨迹质量的限制,导致在系统动态变化和分布外状态下,所学的策略缺乏应对未见场景的泛化能力。受扩散策略在机器人操作中取得成功的启发,该策略采用视觉条件的扩散模型来精确表示多模态分布以生成动作序列,本文提出了一种基于扩散的规划器,能够生成具有强时间一致性的多模态轨迹。
此外,导致预测轨迹不舒适的关键原因在于次优轨迹评分器无法实现持续评估,并且缺乏衡量轨迹舒适度的通用指标。近期研究表明,基于学习的评分器在闭环场景中不如基于规则的评分器,而后者由于依赖手工设计的后处理方式,泛化能力有限。其他研究者探索了使用视觉语言模型(VLMs)来感知周围代理的运动和交通表示,从而决定下一步行动。然而,直接将VLMs作为驾驶决策者面临解释性差和严重幻觉问题。为了解决这些问题,本文提出了一种新颖的轨迹评分器和通用的舒适度指标,结合了基于规则评分器的可解释性与VLMs的适应性,能够根据驾驶风格(例如,激进或保守)进行调整,从而实现持续评估。
综上所述,HE-Drive是一种新颖的以类人驾驶为核心的端到端自动驾驶系统。该系统利用稀疏感知技术,通过稀疏特征来检测、跟踪并映射驾驶场景,生成三维空间表示。这些表示作为条件输入到基于扩散的运动规划器中,该规划器由条件去噪扩散概率模型(DDPM)驱动。最后,基于视觉语言模型(如Llama 3.2V)引导的轨迹评分器从候选轨迹中选择最舒适的轨迹来控制车辆,确保类人风格的端到端驾驶体验。
端到端自动驾驶旨在直接从原始传感器生成规划轨迹。在该领域,根据其评估方法对进步进行了分类:开环和闭环系统。在开环系统中,UniAD提出了一个统一的框架,该框架将全栈驱动任务与查询统一接口集成在一起,以改善任务之间的交互。VAD提高了规划的安全性和效率,其在nuScenes数据集上的性能证明了这一点,而SparseDrive利用稀疏表示来减轻模块化系统中固有的信息丢失和错误传播,提高了任务性能和计算效率。对于闭环评估,VADv2通过概率规划推进了矢量化自动驾驶,使用多视图图像生成车辆控制的动作分布,在CARLA Town05基准中表现出色。
扩散模型用于轨迹生成
扩散模型最初在图像合成中备受赞誉,现已被巧妙地用于轨迹生成。基于Potential的扩散运动规划通过使用学习到的势函数来构建适用于杂乱环境的自适应运动规划,进一步增强了该领域,展示了该方法的可扩展性和可转移性。NoMaD和SkillDiffuser都提出了统一的框架,分别简化了面向目标的导航和基于技能的任务执行,其中NoMaD实现了更好的导航结果,SkillDiffusion实现了可解释的高级指令遵循。总之,扩散模型为基于模仿学习的端到端自动驾驶框架的轨迹规划提供了一种有前景的替代方案。由于固有的因果混淆,模仿学习模型可能会错误地将驾驶员的行为归因于错误的因果因素。相比之下,扩散模型可以通过学习场景特征和驾驶员动作在潜在空间中的联合分布,更好地捕捉潜在的因果关系,使模型能够正确地将真实原因与适当的动作相关联。
轨迹评分在自动驾驶决策中起着至关重要的作用。基于规则的方法提供了强有力的安全保证,但缺乏灵活性,而基于学习的方法在开环任务中表现良好,但在闭环场景中表现不佳。最近,DriveLM将VLM集成到端到端的驾驶系统中,通过感知、预测和规划问答对对对图结构推理进行建模。然而,大型模型的生成结果可能包含幻觉,需要进一步的策略来安全应用于自动驾驶。VLM的出现提出了一个问题:VLM能否根据轨迹评分器自适应地调整驾驶风格,同时确保舒适性?
HE Drive首先采用视觉编码器从输入的多视图相机图像中提取多视图视觉特征,表示为F。随后稀疏感知同时执行检测、跟踪和在线地图任务,为周围环境提供更高效、更紧凑的3D表示(见图2)。
基于扩散模型的运动规划
图2展示了我们基于扩散的运动规划器的整体流程。我们采用基于CNN的扩散策略作为基础,该策略由一个由1D卷积层、上采样层和FiLM(特征线性调制)层组成的条件U-Net组成。
运动规划器扩散策略:本文的方法(图7)采用了条件去噪扩散概率模型(DDPM),这是一个通过参数化马尔可夫链定义的生成模型,使用变分推理训练来模拟条件分布p(At | Ot)。DDPM由一个正向过程和一个反向过程组成,正向过程逐渐将高斯噪声添加到输入数据中,将其转换为纯噪声,反向过程迭代地对噪声数据进行去噪以恢复原始数据。
大模型指导下的轨迹评分
为了从DDPM生成的多模态轨迹中选择最合适的路径,我们引入了VLMs制导轨迹评分器(VTS),如图3所示。据我们所知,VTS是第一个结合了可解释性和零样本驾驶推理能力的轨迹评分器。通过利用视觉语言模型(VLM),悉尼威立雅运输公司可以根据各种驾驶因素(如碰撞概率和舒适度)有效地评估轨迹,从而实现透明的决策和对新驾驶场景的适应性,而无需进行广泛的微调(即终身评估)。
图4:Llama 3.2V在nuScenes上的定性结果。本文展示了问题(Q)、上下文(C)和答案(A)。通过结合环视图像和文本数据,基于规则的评分器通过针对性的权重修改,实现了驾驶风格的微调。
图5:(a) 和 (b) 展示了轨迹生成和评分过程,其中(a) 中的灰色轨迹表示为最优路径,基于最低成本标准被选中用于车辆控制。
图6:(a) 显示了HE-Drive与两个基线模型在真实世界数据中舒适度指标的比较结果;(b) 显示了HE-Drive在闭环数据集OpenScene上的效率指标比较结果。
本文介绍了HE-Drive,一种新颖的以类人驾驶为核心的端到端自动驾驶系统,旨在解决现有方法在实现时间一致性和乘客舒适度方面的局限性。HE-Drive集成了稀疏感知模块、基于扩散的运动规划器以及Llama 3.2V引导的轨迹评分系统。稀疏感知模块通过统一检测、跟踪和在线映射,实现了完全稀疏的场景表示。基于扩散的运动规划器在连续空间中生成多模态轨迹,确保时间一致性并模拟人类的决策过程。轨迹评分模块结合了基于规则的方法和Llama 3.2V,提升了系统的泛化能力、可解释性、稳定性和舒适度。广泛的实验表明,HE-Drive在开放环和闭环数据集上相较于最先进的方法表现出色,生成了具备更好时间一致性和乘客舒适度的类人轨迹。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/xingyeremen/35960.html