摘要
**基础模型(foundation models)**的出现彻底改变了自然语言处理和计算机视觉领域,为它们在自动驾驶(AD)中的应用铺平了道路。本调查对40多篇研究论文进行了全面回顾,展示了基础模型在增强AD中的作用。大型语言模型有助于AD中的规划和模拟,特别是通过它们在推理,代码生成和翻译方面的熟练程度。与此同时,视觉基础模型越来越多地适用于关键任务,如3D物体检测和跟踪,以及为模拟和测试创建逼真的驾驶场景。多模态基础模型集成了不同的输入,表现出卓越的视觉理解和空间推理,这对端到端AD至关重要。这项调查不仅提供了一个结构化的分类,分类基础模型的基础上,他们的模态和功能在AD域,但也深入到目前的研究所采用的方法。它确定了现有基础模型和尖端AD方法之间的差距,从而绘制了未来的研究方向,并提出了弥合这些差距的路线图。
1.介绍
深度学习(DL)与自动驾驶(AD)的结合标志着该领域的重大飞跃,引起了学术界和工业界的关注。配备摄像头和激光雷达的AD系统模仿人类的决策过程。这些系统基本上由三个关键部分组成:感知、预测和规划。感知,利用DL和计算机视觉算法,重点是对象检测和跟踪。预测交通代理的行为及其与自动驾驶车辆的交互。规划通常是分层结构的,涉及制定战略驾驶决策、计算最佳轨迹和执行车辆控制命令。
基础模型的出现,特别是在自然语言处理和计算机视觉领域,为AD研究引入了新的维度。这些模型是不同的,因为它们是在广泛的网络规模数据集上训练的,而且参数大小很大。鉴于自动驾驶汽车服务产生的大量数据和人工智能的进步,包括NLP和人工智能生成的内容(AIGC),人们对AD中基础模型的潜力越来越感兴趣。这些模型可能有助于执行一系列AD任务,例如对象检测,场景理解和决策,其智能水平类似于人类驾驶员。
基础模型解决了AD中的几个挑战。传统上,AD模型是以监督的方式训练的,依赖于手动注释的数据,这些数据通常缺乏多样性,限制了它们的适应性。然而,基础模型显示出上级泛化能力,这是因为它们是在不同的网络规模数据上进行训练的。他们可以潜在地取代复杂的启发式规则为基础的系统在规划与他们的推理能力和知识来自广泛的预训练。例如,LLM具有从预训练数据集获得的推理能力和常识驱动知识,这可能会取代启发式基于规则的规划系统,后者需要在软件代码中手工制作规则的复杂工程工作和在角落情况下进行调试。该领域中的生成模型可以创建用于仿真的真实交通场景,这对于在罕见或具有挑战性的情况下测试安全性和可靠性至关重要。此外,基础模型有助于使AD技术更加以用户为中心,语言模型可以理解和执行自然语言中的用户命令。
尽管在将基础模型应用于AD方面进行了大量研究,但在现实世界的应用中存在明显的局限性和差距。我们的调查旨在提供一个系统的回顾,并提出未来的研究方向。有两项与自动驾驶基础模型相关的调查:LLM4Drive[Yang等人,2023c]更侧重于大型语言模型。[Huang等人,2023]对基础模型在自动驾驶中的应用进行了很好的总结,主要是在仿真,数据注释和规划方面。我们通过涵盖视觉基础模型和多模态基础模型来扩展现有的调查,分析它们在预测和感知任务中的应用。这种全面的方法包括详细的技术方面,如预训练的模型和方法,并确定未来的研究机会。创新性地,我们提出了一种基于模态和功能对AD中的基础模型进行分类的分类法,如图1所示。以下部分将探讨各种基础模型在AD环境中的应用,包括大型语言模型、视觉基础模型和多模态基础模型。
图1:自动驾驶基础模型的分类。它根据其模态描述了基础模型的分类,例如大型语言模型,视觉基础模型和多模态基础模型,并将它们与自动驾驶中的相应功能相关联。
2.AD中的大型语言模型
2.1概述
LLM最初是NLP的变革,现在正在推动AD的创新。Bidirectional Transformers(BERT)[Devlin等人,2018]开创了NLP的基础模型,利用Transformer架构来理解语言语义。这种预先训练的模型可以在特定的数据集上进行微调,并在各种任务中实现最先进的结果。在此之后,OpenAI的生成预训练Transformer(GPT)系列[拉德福等人,2018年],包括GPT-4,展示了卓越的NLP能力,这归功于对广泛数据集的训练。后来的GPT模型,包括ChatGPT、GPT-4[Achiam等人,2023]使用数十亿个参数和数万亿字的抓取网络数据进行训练,并在许多NLP任务上实现了强大的性能,包括翻译,文本摘要,问答。它还展示了一次和几次推理能力,以从上下文中学习新技能。越来越多的研究人员已经开始应用这些推理,理解和上下文学习能力来应对AD的挑战。
2.2在AD中的应用
推理与规划
AD的决策过程与人类推理密切相关,需要对环境线索进行解释,以做出安全舒适的驾驶决策。法学硕士,通过他们对不同的网络数据的培训,已经吸收了与驾驶相关的常识知识,从大量的来源,包括网络论坛和官方政府网站。这种丰富的信息使LLM能够参与AD所需的细微差别的决策。在AD中利用LLM的一种方法涉及向它们呈现驾驶环境的详细文本描述,促使它们提出驾驶决策或控制命令。如图2所示,该过程通常包括详细描述代理状态的综合提示,例如坐标、速度和过去轨迹,车辆的状态即速度和加速度,以及包括交通灯、车道信息和预期路线的地图细节。为了增强交互理解,LLM还可以被引导以提供推理沿着它们的响应。例如,GPT驱动程序[Mao等人,2023a]不仅建议车辆采取行动,还阐明了这些建议背后的理由,大大提高了自动驾驶决策的透明度和可解释性。这种方法,例如驾驶与LLM [陈等人,2023],增强了自动驾驶决策的可解释性。类似地,“接收、推理和反应”方法[Cui等人,2023]指示LLM代理评估车道占用率并评估潜在行动的安全性,从而促进对动态驾驶场景的更深入理解。这些方法不仅利用LLM的固有能力来理解复杂的场景,而且还利用它们的推理能力来模拟类似人类的决策过程。通过整合详细的环境描述和战略提示,LLM为AD的规划和推理方面做出了重大贡献,提供了反映人类判断和专业知识的见解和决策。
图二:自动驾驶LLM管道的常见模式,展示了文本环境描述和LLM推理的集成,以告知驾驶决策。
预测
预测交通参与者的未来轨迹,意图,以及与自我车辆的可能交互。常见的基于深度学习的模型基于交通场景的光栅化或矢量图像,这些图像对空间信息进行编码。然而,准确地预测高度交互的场景仍然具有挑战性,这需要推理和语义信息,例如,路权,车辆的转向信号和行人的手势。场景的文本表示可以提供更多的语义信息,并更好地利用LLM的推理能力和预训练数据集中的常识。将LLM应用于轨迹预测的研究还不多。[Keysan等人,[2023]做了LLM的能力进行轨迹预测的早期探索。将场景表示转化为文本提示,并利用BERT模型生成文本编码,最后与图像编码融合解码轨迹预测。与仅使用图像编码或文本编码的基线相比,它们的评估显示出显着的改善。
用户界面和个性化
自动驾驶汽车应该是用户友好的,能够遵循乘客或远程操作员的指示。目前的Robotaxi远程协助界面仅用于执行有限的预定义命令。然而,LLM的理解和交互能力使自动驾驶汽车能够理解人类的自由形式指令,从而更好地控制自动驾驶汽车,满足用户的个性化需求。[Cui例如,2023]探索了基于LLM的计划器对个性化命令的调节,例如“积极驾驶”或“保守驾驶”,并且能够输出各种速度和风险的动作。[Yang例如,2023 b]利用LLM的推理能力,并提供一步一步的规则来决定对用户命令的响应。LLM代理还能够基于预定义的交通规则和系统要求接受或拒绝用户命令。
仿真和测试
LLM可以从现有的文本数据中总结和提取知识,并生成新的内容,这可以促进模拟和测试。ADEPT系统[Wang等人,2022 b]使用GPT从NHTSA事故报告中提取关键信息,并使用QA方法,能够生成用于仿真和测试的各种场景代码。目标[Deng等人,2023]系统能够使用GPT将交通规则从自然语言翻译成领域特定语言,用于生成测试场景。LCTGen[Tan等人,2023]使用LLM作为一个强大的解释器,将用户的文本查询转换为交通模拟场景的地图车道和车辆位置的结构化规范。
2.3方法和技术
研究人员在自然语言处理中使用类似的技术,将LLM用于自动驾驶任务,例如提示工程,上下文和少量学习以及来自人类反馈的强化学习[Ouyang et al.,2022年]。
提示工程
提示工程采用输入提示和问题的复杂设计来指导大型语言模型生成我们想要的答案。
一些论文增加了交通规则作为预提示,使LLM代理符合法律。驾驶LLM [Chen等人,2023]有潜水规则,包括交通灯转换和左或右驾驶侧等方面。[Mao例如,2023 b]提出了一种称为常识模块的模块,该模块存储人类驾驶的规则和指令,例如避免碰撞和保持安全距离。
[Sha et al.,2023]采用自上而下的决策系统:给定不同的情况,车辆有不同的可能行动。LLM代理还被指示识别场景中的重要代理,并输出注意力,权重和偏差矩阵以从预定义的动作中进行选择。
在一些论文中还介绍了存储模块,其存储过去的驾驶场景。在推理时,检索相关示例并将其作为提示中的上下文添加,LLM代理可以更好地利用少量学习功能并反映最相关的场景。DILU[Wen等人,2023 a]提出了一种记忆模块,该模块将驾驶场景的文本描述存储在矢量数据库中,并且系统可以检索top-k场景以进行少量学习。[Mao例如,2023 b]有两个阶段的检索过程:第一阶段使用k-最近邻搜索来检索数据库中相关的过去的例子,第二阶段要求LLM对这些例子进行排名。
更多的论文构建了复杂的系统来管理任务中的提示生成,从而触发对其他模块或子系统的函数调用,以获取决策所需的信息。[Mao例如,2023 b]已经创建了库和函数API调用,以与感知,预测和映射系统进行交互,以便LLM可以充分利用所有可用信息。[Sha et al.,2023]使用LangChain创建LLM所需的工具和界面,以获取相关车辆,可能的情况和可用的操作。
微调与情境学习
微调和上下文学习都被应用于使预训练模型适应自动驾驶。微调在较小的特定领域数据集上重新训练模型参数,而上下文学习或少量学习利用LLM的知识和推理能力从输入提示中的给定示例中学习。大多数论文都集中在上下文学习,但只有少数论文利用微调。研究人员对哪一个更好的结果喜忧参半:[Mao et al.,[2023 b]比较了这两种方法,发现少量学习稍微更有效。GPT-Driver [Mao等人,[2023 a]有一个不同的结论,使用OpenAI微调的性能明显优于少量学习。[Chen例如,2023]还比较了从头开始的训练和微调方法,发现使用预训练的LLaMA模型和基于LoRA的微调可以比从头开始的训练表现更好。
强化学习和人类反馈
DILU [Wen等人,2023a]提出了反射模块,该模块存储好的驾驶示例和具有人类校正的坏的驾驶示例,以进一步增强其推理能力。通过这种方式,LLM可以学习推理什么行为是安全的和不安全的,并不断反思大量过去的驾驶经验。超现实驱动器[Jin等人,2023]采访了24名驾驶员,并使用他们对驾驶行为的描述作为思维链提示,开发了一个“教练代理”模块,该模块可以指导LLM模型具有类似人类的驾驶风格。解释语音指令[Wang等人,2022a]使用来自人类教练的指令,并建立了动作,奖励和推理的自然语言指令的分类,用于训练基于深度强化学习的自动驾驶代理。
2.4局限性和未来方向
幻觉与危害
幻觉是LLM的一大挑战,最先进的大型语言模型仍然会产生误导和错误的信息。在现有的论文中提出的大多数方法仍然需要解析LLM的响应驱动动作。当给定一个看不见的场景时,LLM模型仍然会产生无益或错误的驾驶决策。自动驾驶是一种安全关键型应用,其可靠性和安全性要求比聊天机器人高得多。根据评价结果[Mao等人,2023a],用于自动驾驶的LLM模型的碰撞率为0.44%,高于其他方法。[Chen例如,2023]提出了一种通过在没有足够信息做出决定的情况下提问来减少幻觉的方法,并指示LLM回答“我不知道”。预先训练的LLM还可以包括有害内容,例如,侵略性驾驶和超速。更多的人在回路中的训练和调整可以减少幻觉和有害的驾驶决策。
延迟和效率
大型语言模型通常存在高延迟,生成详细的驾驶决策可能会耗尽汽车中有限计算资源的延迟预算。根据[Jin et al.,2023年]。具有数十亿参数的LLM可能会消耗超过100GB的内存,这可能会干扰自动驾驶汽车中的其他关键模块。需要在这一领域做更多的研究,如模型压缩和知识蒸馏,使LLM更有效,更容易部署。
依赖于感知系统
尽管LLM的最高推理能力,环境描述仍然依赖于上游的感知模块。驾驶决策可能会出错,并导致严重事故,环境输入的微小错误。例如,[Mao等人,2023 b]示出了当上游航向数据有错误时的故障情况。LLM还需要更好地适应感知模型,并在存在错误和不确定性时做出更好的决策。
模拟到真实的差距
大多数研究都是在模拟环境中进行的,驾驶场景比现实环境简单得多。需要大量的工程和人类详细的注释工作,以使工程能够覆盖真实的世界中的所有场景,例如,模型知道如何屈服于人类,但可能不擅长处理与小动物的交互。
2.5总结
LLM中的出版物总结见图3。我们提出了更细粒度的分类环境(真实的或SIM),自动驾驶功能,基础模型和研究中使用的技术。
图3:LLM自动驾驶的出版物摘要
3.视觉基础模型
视觉基础模型在多个计算机视觉任务中取得了巨大的成功,例如目标检测和分割。DINO [Caron等人,2021]使用vision transformer架构,并以自我监督的方式进行训练,在给定局部图像块的情况下预测全局图像特征。DINOV 2 [Oquab等人,2023]使用10亿个参数和12亿张图像的分散数据集扩展训练,并在多个任务中实现最先进的结果。分段任意模型[Kirillov等人,2023]是图像分割的基础模型。该模型使用不同类型的提示(点、框或文本)进行训练,以生成分割掩码。在数据集中使用数十亿个分割掩码进行训练后,该模型显示了零次传输能力,可以在适当的提示下分割新对象。
扩散模型[Sohl-Dickstein等人,2015]是广泛用于图像生成的生成基础模型。扩散模型迭代地将噪声添加到图像,并应用逆扩散过程来恢复图像。为了生成图像,我们可以从学习的分布中采样,并从随机噪声中恢复高度真实的图像。稳定扩散[Rombach等人,2022]模型使用VAE[Kingma和Welling,2013]将图像编码为潜在表示,并使用UNet[Ronneberger等人,2015]从潜在变量解码为像素级图像。它还有一个可选的文本编码器,并应用交叉注意机制来根据提示(文本描述或其他图像)生成图像。DALL-E[Ramesh等人,该模型使用数十亿个图像和文本对进行训练,并使用稳定的扩散来生成高保真图像和遵循人类指令的创意艺术。
人们对视觉基础模型在自动驾驶中的应用越来越感兴趣,主要用于3D感知和视频生成任务。
3.1感知
SAM 3D [Zhang等人,2023 a]将SAM(Segmentanything model)应用于自动驾驶中的3D物体检测。激光雷达点云被投影到BEV(鸟瞰图)图像,它使用32 x32网格网格来生成点提示,以检测前景物体的遮罩。它利用SAM模型的zero-shot transfer 能力来生成分割掩模和2D框。然后,它使用2D框内这些激光雷达点的垂直属性来生成3D框。然而,Waymo开放数据集的评估显示,平均精度指标与现有的最先进的3D物体检测模型仍然相距甚远。他们观察到SAM训练的基础模型不能很好地处理那些稀疏和噪声点,并且经常导致对远处物体的假阴性。
SAM被应用于领域适应的三维分割任务,利用SAM模型的特征空间,其中包含更多的语义信息和泛化能力。[Peng例如,2023]提出SAM引导的特征对齐,学习来自不同领域的3D点云特征的统一表示。该方法利用SAM特征提取器生成摄像机图像的特征嵌入,并将三维点云投影到摄像机图像中,得到SAM特征。训练过程优化了对齐损失,使得来自不同领域的3D特征在SAM的特征空间中具有统一的表示。这种方法在多个域切换数据集中实现了最先进的3D分割性能,例如不同的城市,天气和激光雷达设备。
SAM和Grounding-DINO [Liu等人,2023 b]用于创建利用视频帧之间的时间一致性的统一分割和跟踪框架[Cheng等人,2023年]。Grounding-DINO是一个开集对象检测器,它从对象的文本描述中获取输入,并输出相应的边界框。给定与自动驾驶相关的对象类的文本提示,它可以检测视频帧中的对象并生成车辆和行人的边界框。SAM模型进一步将这些框作为提示,并为检测到的对象生成分割掩模。然后将得到的对象掩码传递到下游跟踪器,该跟踪器比较来自连续帧的掩码以确定是否存在新对象。
3.2视频生成和世界模型
基础模型,特别是生成模型和世界模型可以生成逼真的虚拟驾驶场景,可用于自动驾驶仿真。许多研究人员已经开始将扩散模型应用于自动驾驶,以生成逼真的场景。视频生成问题通常被表述为世界模型:给定当前世界状态,以环境输入为条件,该模型预测下一个世界状态,并使用扩散来解码高度逼真的驾驶场景。
GAIA-1[Hu等人,2023]由Wayve开发,用于生成逼真的驾驶视频。世界模型使用摄像机图像、文本描述和车辆控制信号作为输入标记,并预测下一帧。该论文使用预先训练的DINO[Caron et al.,2021]模型的嵌入和余弦相似性损失,以提取更多的语义知识的图像令牌嵌入。他们使用视频扩散模型[Ho等人,2022]以从预测的图像令牌解码高保真驾驶场景。有两个单独的任务来训练扩散模型:图像生成和视频生成。图像生成任务帮助解码器生成高质量的图像,而视频生成任务使用时间注意力来生成时间上一致的视频帧。生成的视频遵循高级现实世界的约束,并具有逼真的场景动态,例如对象的位置,交互,交通规则和道路结构。视频还显示了多样性和创造力,这有现实的可能结果取决于不同的文本描述和自我车辆的行动。
DriveDreamer[Wang等人,2023 b]还使用世界模型和扩散模型来生成用于自动驾驶的视频。除了图像、文字描述和车辆动作外,该模型还使用了更多的结构化交通信息作为输入,如HDMap和对象3D框,使模型能够更好地理解交通场景的更高层次的结构约束。
模型训练有两个阶段:第一阶段是使用以结构化交通信息为条件的扩散模型生成视频。它建立在预先训练的稳定扩散模型上[Rombach等人,#20202;的参数被冻结。在第二阶段中,使用未来视频预测任务和动作预测任务来训练模型,以更好地学习未来预测和对象之间的交互。
[Zhang等人,2023 c]建立了一个基于点云的世界模型,在点云预测任务中实现了SOTA性能。他们提出了一种类似VQVAE的[Oord et al.,2017]标记化器将3D点云表示为潜在BEV标记,并使用离散扩散来预测给定过去BEV标记和自我车辆的动作标记的未来点云。
3.3局限性和未来方向
目前最先进的基础模型,如SAM,对于3D自动驾驶感知任务(如目标检测和分割),没有足够好的zero-shot transfer能力。自动驾驶感知依赖于多个摄像头、激光雷达和传感器融合来获得最高精度的目标检测结果,这与从网络上随机收集的图像数据集有很大不同。目前用于自动驾驶感知任务的公共数据集的规模仍然不够大,无法训练基础模型并覆盖所有可能的长尾场景。尽管存在局限性,但现有的2D视觉基础模型可以作为有用的特征提取器用于知识蒸馏,这有助于模型更好地结合语义信息。在视频生成和预测任务领域,我们已经看到了利用现有扩散模型进行视频生成和点云预测的可喜进展,这些模型可以进一步应用于为自动驾驶模拟和测试创建高保真场景。
4.多模态地基模型
多模式基础模型通过从多个模式(例如声音、图像和视频)获取输入数据来执行更复杂的任务,例如从图像生成文本、利用视觉输入进行分析和推理,从而使多模式基础模型受益更大。
最著名的多模式基础模型之一是CLIP[Radford等人,2021]。采用对比预训练方法对模型进行预训练。输入是有噪声的图像和文本对,该模型被训练以预测给定的图像和文本是否是正确的对。对模型进行训练,以最大化图像编码器和文本编码器嵌入的余弦相似度。对于其他计算机视觉任务,如图像分类,以及在没有监督训练的情况下预测类的正确文本描述,剪辑模型显示出零镜头转移能力。
多模式基础模型,如LLaVA[Liu等人,2023a],Lisa[Lai等人,2023]和CogVLM[Wang等人,2023a]可以用于通用视觉AI代理,它在视觉任务中表现出优越的性能,如对象分割、检测、定位和空间推理。Video-LLaMA[Zhang等,2023b]可以进一步感知视频和音频数据,这可能有助于自动驾驶车辆更好地从时间图像和音频序列中理解世界。
多模态基础模型也被用于机器人学习,它利用机器人的动作作为一种新的通道来创建更多可以执行现实世界任务的通用代理。DeepMind提出了一个视觉-语言-动作模型[Brohan等人,2023年],训练了来自网络的文本和图像,并学习了输出控制命令来完成现实世界的对象操纵任务。将一般知识从大规模的预训练数据集转移到自动驾驶中,多模态基础模型可以用于目标检测、视觉理解和空间推理,从而在自动驾驶中有更强大的应用。
4.1视觉理解与推理
传统的目标检测或分类模型对于自动驾驶来说是不够的,因为我们需要对场景进行更好的语义理解和视觉推理,例如识别危险对象,理解交通参与者的意图。现有的基于深度学习的预测和规划模型大多是暗箱模型,当发生事故或不适事件时,模型的可解释性和可调试性较差。借助于多模态基础模型,我们可以生成模型的解释和推理过程,以便更好地研究问题。
为了进一步改进感知系统,HILM-D[Ding等人,2023]利用多模态基础模型ROLISP(风险对象定位和意图与建议预测)。它使用自然语言从相机图像中识别危险物体,并对自我载体的行动提供建议。为了克服丢失小对象的缺点,提出了一种同时具有高分辨率和低分辨率分支的流水线。低分辨率推理分支用于理解高层信息,并从连续的视频帧中识别风险对象;高分辨率感知分支用于进一步细化目标检测和定位质量。他们的模型主干使用预先训练的视觉编码器和遵循BLIP2的LLM权重[Li等人,2023]。
Talk 2BEV [Dewangan等人,2023]提出了一种创新的鸟瞰图(BEV)表示的场景融合视觉和语义信息。管道首先从图像和激光雷达数据生成BEV地图,并使用通用视觉语言基础模型来添加对象裁剪图像的更详细的文本描述。然后,BEV地图的JSON文本表示被传递给通用LLM以执行Visual QA,其中包括空间和视觉推理任务。结果表明,详细的实例属性和更高层次的对象的意图,并提供自由形式的自我车辆的行动的建议的能力有很好的理解。
LiDAR-LLM[Yang等人,2023 a]使用一种新颖的方法,将点云数据与大型语言模型的高级推理能力相结合,以解释真实世界的3D环境,并在3D字幕,接地和QA任务中实现出色的性能。该模型采用了独特的三阶段训练和视图感知Transformer(VAT),以将3D数据与文本嵌入对齐,增强空间理解。他们的例子表明,该模型可以理解交通场景,并为自动驾驶规划任务提供建议。
[Atakishiyev等人,2023]使用视觉QA方法,重点关注车辆动作的可解释性。他们从5个不同的动作类别(如直行和左转)中收集模拟环境中的驾驶视频,并使用手动标记的动作解释来训练模型。该模型能够解释基于道路几何形状和障碍物清除的驾驶决策。他们发现应用最先进的多模态基础模型来生成车辆动作的结构化解释是有希望的。
4.2统一的感知和规划
[文等,2023b]对GPT4Vision[Achiam等,2023]S在感知和规划任务中的应用进行了早期探索,并在几个场景中对其能力进行了评估。它表明,GPT-4Vision可以理解天气、交通标志和红绿灯,并识别场景中的交通参与者。它还可以为这些对象提供更详细的语义描述,例如车辆尾灯、掉头等意图以及详细的车辆类型(例如水泥搅拌车、拖车和SUV)。它还显示了基础模型在理解点云数据方面的潜力,GPT-4V可以从BEV图像中投影的点云轮廓中识别车辆。他们还评估了该模型在计划任务上的表现。考虑到交通情况,GPT4-V被要求描述它对车辆行动的观察和决定。结果显示,与其他交通参与者互动良好,遵守交通规则和常识,例如在安全距离跟随汽车,在人行横道上让行自行车,在绿灯变绿之前保持停车。它甚至可以很好地处理一些长尾场景,比如封闭式停车场。
指令调整用于更好地使通用多模态基础模型适应自动驾驶任务。DriveGPT4[Xu等人,2023]创建了一个指令跟随数据集,其中ChatGPT、YOLOV8[Reis等人,2023]和来自BBDX数据集的地面真实车辆控制信号[Kim等人,2018]被用来生成关于常见对象检测、空间关系、红绿灯信号、EGO车辆动作的问答。在LLaVA之后,它使用了预先训练的CLIP[Radford等人,2021年]编码器和LLM权重,并使用专门为自动驾驶设计的指令跟随数据集对模型进行了微调。他们能够建立一个端到端的可解释的自动驾驶系统,该系统能够很好地了解周围环境,并根据司法管辖区和较低级别的控制命令做出车辆行动的决策。
4.3局限性和未来方向
多模态基础模型显示了自动驾驶任务所需的空间和视觉推理能力。与传统的目标检测相比,分类模型在闭集数据集上训练,其视觉推理能力和自由形式的文本描述可以提供更丰富的语义信息,可以解决很多长尾检测问题,如特种车辆的分类、警察和交通管制员手势的理解等。多模态基础模型具有良好的泛化能力,可以很好地处理一些具有挑战性的长尾场景,例如在具有受控访问的大门前停车。进一步利用其规划任务的推理能力,视觉语言模型可用于统一感知规划和端到端自动驾驶。
多模态车型在自动驾驶中仍存在局限性。[Wen例如,2023 b]显示GPT4V模型仍然患有幻觉,并在几个例子中产生不清楚的反应或错误的答案。该模型还显示出在利用多视图相机和激光雷达数据进行准确的3D对象检测和定位方面的不足,因为预训练数据集只包含来自网络的2D图像。需要进行更多特定领域的微调或预训练来训练多模态基础模型,以更好地理解点云数据和传感器融合,从而实现与最先进的感知系统相当的性能。
5.结论和今后的方向
我们总结并分类了最近将基础模型应用于自动驾驶的论文。我们基于自动驾驶中的模态和功能建立了一个新的分类。我们详细讨论了使基础模型适应自动驾驶的方法和技术,例如上下文学习、微调、强化学习和视觉指令调整。我们还分析了自动驾驶基础模型的局限性,例如幻觉,延迟和效率以及数据集的域差距,并提出以下研究方向:
·对自动驾驶数据集进行特定领域的预训练或微调
·强化学习和人在回路对齐,以提高安全性并减少幻觉
·将2D基础模型适应3D,例如语言引导的传感器融合、微调或3D数据集上的少量学习
·延迟和内存优化,模型压缩,以及将基础模型部署到车辆的知识提取
我们还注意到,数据集是自动驾驶基础模型未来发展的最大障碍之一。现有的开源数据集[Li等人,对于1000小时规模的自动驾驶来说,远低于用于最先进LLM的预训练数据集。用于现有基础模型的网络数据集并没有利用自动驾驶所需的所有模式,例如激光雷达和环绕摄像头。web数据域也与真实的驾驶场景有很大不同。
图5:AD中基础模型的路线图。
我们在图5中提出了未来的长期路线图。在第一阶段,我们可以收集一个大规模的2D数据集,该数据集可以覆盖真实世界环境中驾驶场景的所有数据分布,多样性和复杂性,用于预训练或微调。大多数车辆都可以配备前置摄像头,以便在一天中的不同时间收集不同城市的数据。在第二阶段,我们可以使用更小但更高质量的3D数据集和激光雷达来改善基础模型的3D感知和推理,例如,我们可以使用现有的最先进的3D对象检测模型作为教师来微调基础模型。最后,我们可以利用人类驾驶示例或注释进行规划和推理,以实现自动驾驶的最大安全目标。