大模型+自动驾驶

论文:https://arxiv.org/pdf/2401.08045.pdf

大型基础模型的兴起,它们基于广泛的数据集进行训练,正在彻底改变人工智能领域的面貌。例如SAM、DALL-E2和GPT-4这样的模型通过提取复杂的模式,并在不同任务中有效地执行,从而作为广泛AI应用的强大构建块。自动驾驶,作为AI应用的一个活跃前沿,仍然面临着缺乏专门的视觉基础模型(Vision Foundation Models,VFMs)的挑战。全面训练数据的稀缺、多传感器集成的需求和多样的任务特定架构对该领域VFMs的发展构成了重大障碍。本文深入探讨了为自动驾驶量身定制VFMs的关键挑战,并概述了未来的发展方向。通过对250多篇论文的系统分析,我们剖析了VFM开发的基本技术,包括数据准备、预训练策略和下游任务适应。此外,我们还探索了如NeRF、扩散模型、3D高斯喷溅和世界模型等关键进展,为未来研究提供了全面的路线图。为了赋能研究者,我们建立并维护了Forge VFM4AD,一个开放获取的存储库,不断更新自动驾驶VFMs锻造的最新进展。

自动驾驶(AD)技术的迅速发展正在重塑交通运输领域,开启了一个由AI驱动的未来。传统的自动驾驾驶感知系统依赖于模块化架构,使用专门的算法来处理特定任务,例如对象检测 Lang et al. (2019);Mao, Xue, et al. (2021),语义分割 Y. Guo, Liu, Georgiou, 和 Lew (2018);X. Yan et al. (2022),以及深度估计 Ming, Meng, Fan, 和 Yu (2021)。每个任务通常由一个单独的模型解决,这些模型通常是在特定任务标签上训练的深度神经网络。然而,这些分隔的组件在提升单个任务性能的同时牺牲了更广泛的上下文理解和数据关系。这种方法通常导致输出不一致,并限制了系统处理长尾案例的能力。

大规模基础模型,尤其是自然语言处理(NLP)领域的 Brown et al. (2020);OpenAI (2023),已成为人工智能领域的强大力量。这些模型在训练时使用了广泛多样的数据集,并经常利用自监着学习技术。一旦训练完成,它们可以通过微调来适应广泛的特定任务。像GPT-3/4 Brown et al. (2020);OpenAI (2023)这样的数十亿参数模型在零/少次射击学习中的成功尤其值得注意。它们在少次射击学习方面的卓越能力使它们能够有效地处理分布外的AD数据情景,例如遇到未知对象。此外,它们在推理方面的内在能力使它们非常适合需要逻辑处理和明智决策的任务。

尽管大型基础模型确实在各个领域产生了革命性的影响,但它们对AD的影响尚未达到预期。将现有的在2D数据或其他领域的文本模态上训练的视觉基础模型(VFMs)直接应用于AD任务已被证明是明显不足的。这些模型缺乏利用对AD感知任务至关重要的丰富3D信息的能力,例如深度估计。此外,AD架构的内在异质性和多传感器融合的必要性给VFMs的直接适应带来了额外挑战。这一挑战由高效处理多样化传感器数据(例如激光雷达、相机、雷达)并无缝适应AD领域内各种下游任务的VFMs需求进一步加剧。

在自动驾驶发展的背景下,两个关键因素阻碍了视觉基础模型的进展:- 数据稀缺性:由于隐私问题、安全规定和捕捉真实世界驾驶场景的复杂性,AD数据本质上是有限的。此外,AD数据必须满足严格的要求,包括多传感器对齐(例如激光雷达、相机、雷达)和时间一致性。

  • 任务异质性:自动驾驶呈现出一系列不同的任务,每个任务都需要不同的输入形式(例如相机、激光雷达、雷达)和输出格式(例如3D边界框、车道线、深度图)。这种异质性对VFMs构成了挑战,因为针对一个任务优化的架构在其他任务上的表现往往不令人满意。因此,开发一个能够高效处理多传感器数据并在各种不同下游任务中表现良好的单一通用架构和表示仍然是一个重大障碍。

尽管存在这些挑战,但有迹象表明,为自动驾驶开发大型视觉基础模型的前景正在逐渐显现。通过持续收集 Caesar et al. (2020);Mao, Niu, et al. (2021)和先进模拟技术的不断发展 X. Li et al. (2023);Z. Yang et al. (2023a)为解决数据稀缺问题提供了可能。此外,感知领域的最新进展,尤其是转向统一表示法,利用鸟瞰图(BEV) Z. Li, Wang, et al. (2022);Philion 和 Fidler (2020),和占用表示法 X. Tian, Jiang, et al. (2023),为缺乏通用表示法和架构的问题提供了潜在的解决方案。

本文深入探讨了为自动驾驶发展大型视觉基础模型的关键技术,如图1所示。我们的探索从在基础模型、现有框架和任务方面建立全面背景开始,以及发展表示法,概述我们的核心动机在第2节中。随后,我们在第3节深入研究现有数据集和数据模拟技术,强调了像生成对抗网络(GANs)、神经辐射场(NeRFs)、扩散模型和3D高斯喷溅(3DGS)等技术在解决自动驾驶固有数据稀缺性方面的关键作用。在这个基础上,第4节分析了有效训练VFMs在未标记真实世界数据上的自我训练技术。最后,为了弥合训练有素的VFMs和下游任务之间的差距,第5节探讨了将在其他领域发展的基础模型应用于AD领域。我们审视了所学到的宝贵经验和潜在适应性,以实现自动驾驶中多样化下游任务的有效性能。

与现有的综述论文 Firoozi et al. (2023);Y. Huang, Chen, 和 Li (2023);J. Sun et al. (2023);Z. Yang, Jia, Li, 和 Yan (2023)不同,这些论文囊括了在各个领域应用大型基础模型,本文通过专注于为自动驾驶挑战量身定制的大型视觉基础模型的发展提出了一种新的方法。这种独特的视角使我们能够更深入地探讨构建VFMs所需的基本原则和技术进步,以推动该领域的实质性进展。

本工作的主要贡献可以总结如下

  • 我们采用了一个统一的流程来发展自动驾驶的大型视觉基础模型(VFMs)。这个流程包括对数据准备、自监着学习和适应的全面审查。

  • 我们系统地分类了提出框架内每个过程的现有工作,如图2所示。我们的分析提供了细致的分类、深入的比较,并在每个部分总结了洞见。

  • 我们深入探讨了在为自动驾驶打造视觉基础模型(VFMs)时遇到的关键挑战。通过对超过250篇综述论文的洞察,我们总结了关键方面,并提出了未来研究的方向。

图片

数据准备 

在自动驾驶的背景下,鉴于确保人类安全所涉及的高风险,处理复杂驾驶场景的稳健性至关重要。自动驾驶系统必须有效地应对各种挑战,包括交通参与者、天气条件、照明以及道路状况。然而,收集涵盖所有可能场景的数据集(如意外的行人相关交通事故)是不切实际且效率低下的。此外,基于合成数据训练的模型可能难以有效地概括到现实世界场景,因为数据分布可能存在差异。因此,问题的关键在于生成逼真且可控制的数据。值得鼓舞的是,最近的进展,特别是在扩散模型和NeRF方面,已经产生了模糊了现实与机器生成界限的图像,为解决数据稀缺提供了有希望的技术支持。

本节不仅深入研究利用现有数据集,还探索了以成本效益和高效方式收集、合成或增强自动驾驶数据的多种方法。这包括生成对抗网络、扩散模型、神经辐射场和3D高斯喷溅等技术。表2提供了这些数据生成方法的概览。

图片

自监着学习训练 

在获取大量逼真数据后,有效的预训练范式对于从庞大数据集中提取一般信息和构建视觉基础模型至关重要。

自监着学习(self supervised learning),即在大量未标记数据上进行训练,已在多个领域显示出潜力,如自然语言处理和特定的图像处理应用。此外,它为自动驾驶的视觉基础模型(VFMs)的发展带来了新的前景。如表3所示,我们对构建自动驾驶VFMs的自监着学习范式进行了全面的综述,涵盖了所有自监着或无监督方式的努力。这些方法被归类为五个主要类型,包括基于对比的、基于重构的、基于蒸馏的、基于渲染的和基于世界模型的。

图片

适配

虽然当前缺乏为自动驾驶量身定制的视觉基础模型(Vision Foundation Model)构成了挑战,但我们可以分析现有基础模型的应用,例如来自其他领域的视觉基础模型、多模态基础模型和大型语言模型(Large Language Models),以增强我们的理解。表5清晰地总结了一些著名模型。通过检查现有解决方案的局限性,我们已经提取了关键见解,并提出了专门为自动驾驶定制的视觉基础模型。

图片

结论

基础模型的出现已根本性地改变了人工智能的格局,其在革新自动驾驶方面的潜力不可否认。本文深入探讨了为自动驾驶专门打造视觉基础模型(VFM)的核心问题,重点突出了数据生成、预训练和适应性等关键技术。然而,朝着稳健且适应性强的自动驾驶感知系统迈进的道路依然充满挑战。我们希望我们的调查和平台能够促进未来在安全关键的自动驾驶领域内视觉基础模型的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/343771.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《汇编语言》- 读书笔记 - 第8章 - 数据处理的两个基本问题(阶段总结)

《汇编语言》- 读书笔记 - 第8章 - 数据处理的两个基本问题(阶段总结) 8.1 bx、si、di 和 bp (可用于内存寻址)8.2 机器指令处理的数据在什么地方8.3 汇编语言中数据位置的表达1. 立即数(idata)2. 寄存器3. 段地址(SA)和偏移地址(EA) 8.4 寻址方式8.5 指…

HPA自动扩缩容

HPA是什么??? Horizontal Pod Autoscaling: k8s自带的模块,pod的水平自动伸缩,对象是pod。 pod占用cpu比率达到一定的阈值,将会触发伸缩机制。 replication controller 副本控制器 deployment controll…

【ZYNQ入门】第九篇、双帧缓存的原理

目录 第一部分、基础知识 1、HDMI视频撕裂的原理 2、双帧缓存的原理 第二部分、代码设计原理 1、AXI_HP_WR模块 2、AXI_HP_RD模块 3、Block design设计 第三部分、总结 1、写在最后 2、更多文章 第一部分、基础知识 1、HDMI视频撕裂的原理 在调试摄像头的时候&#xf…

CMS如何调优

业务JVM频繁Full GC如何排查 原则是先止损,再排查。 FGC的原因是对象晋升失败或者并发模式失败,原因都是老年代放不下晋升的对象了。 1.可能是大对象导致的内存泄漏。快速排查方法:观察数据库网络IO是否和FGC时间点吻合,找到对应…

Servlet生命周期

第一阶段: init()初始化阶段 当客户端想Servlet容器(例如Tomcat)发出HTTP请求要求访问Servlet时,Servlet容器首先会解析请求,检查内存中是否已经有了该Servlet对象,如果有&#xff…

机器人制作开源方案 | 全自动导航分拣机器人

作者:孙国峰 董阳 张鑫源 单位:山东科技大学 机械电子工程学院 指导老师:张永超 贝广霞 1. 研究意义 1.1 研究背景 在工业生产中,机器人在解决企业的劳动力不足,提高企业劳动生产率,提高产品质量和降低…

【c++学习】数据结构中的链表

c链表 数据结构中的链表代码 数据结构中的链表 链表与线性表相对&#xff0c;链表数据在内存中的存储空间是不连续的&#xff0c;链表每个节点包含数据域和指针域。 代码 下述代码实现了链表及其接口 包括增、删、查、改以及其他一些简单的功能 #include <iostream>u…

FRRouting学习(一) 配置日志文件

以配置isis event事件日志为例 1、在配置之前&#xff0c;/var/log/frr路径下是没有文件的&#xff1a; 2、在vtysh config之下输入&#xff1a;log file /var/log/frr/isisd.log debugging 后面的debugging表示日志级别&#xff0c;可以根据自己修改 3、配置好了之后&#xf…

java——数据类型与变量

目录 &#x1f469;&#x1f3fb;‍&#x1f4bb;字面常量 &#x1f469;&#x1f3fb;‍&#x1f4bb;数据类型 &#x1f469;&#x1f3fb;‍&#x1f4bb;变量 ❗整型变量 &#x1f449;int(整型)默认值 &#x1f449;long(长整型) &#x1f449;short(短整型) &…

webpack如何把dist.js中某个模块js打包成一个全局变量,使得在html引入dist.js后可以直接访问

webpack可以通过使用expose-loader来将模块中的一个js文件暴露为全局可以访问的变量。下面是一个示例代码&#xff1a; 1、安装expose-loader npm install expose-loader --save-dev 2、webpack.config.js配置文件 值得注意的是&#xff1a;我在本地使用16.14.2版本的node打包…

Springboot+vue的医院后台管理系统(有报告),Javaee项目,springboot vue前后端分离项目

演示视频&#xff1a; Springbootvue的医院后台管理系统&#xff08;有报告&#xff09;&#xff0c;Javaee项目&#xff0c;springboot vue前后端分离项目 项目介绍&#xff1a; 本文设计了一个基于Springbootvue的前后端分离的医院后台管理系统&#xff0c;采用M&#xff08…

博捷芯划片机在半导体芯片切割领域的领先实力

在当今高速发展的半导体行业中&#xff0c;芯片切割作为制造过程中的核心技术环节&#xff0c;对设备的性能和精度要求日益提升。在这方面&#xff0c;国内知名划片机企业博捷芯凭借其卓越的技术实力和持续的创新精神&#xff0c;成功研发出具备完全自主知识产权的半导体切割划…

基于springboot+vue的海滨体育馆管理系统(前后端分离)

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容&#xff1a;毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 研究背景…

牛客周赛 Round 18 解题报告 | 珂学家 | 分类讨论计数 + 状态DP

前言 整体评价 前三题蛮简单的&#xff0c;T4是一个带状态的DP&#xff0c;这题如果用背包思路去解&#xff0c;不知道如何搞&#xff0c;感觉有点头痛。所以最后还是选择状态DP来求解。 欢迎关注 珂朵莉 牛客周赛专栏 珂朵莉 牛客小白月赛专栏 A. 游游的整数翻转 这题最好…

基于GPT3.5逆向 和 本地Bert-Vits2-2.3 的语音智能助手

文章目录 一、效果演示二、操作步骤三、架构解析 一、效果演示 各位读者你们好&#xff0c;我最近在研究一个语音助手的项目&#xff0c;是基于GPT3.5网页版的逆向和本地BertVits2-2.3 文字转语音&#xff0c;能实现的事情感觉还挺多&#xff0c;目前实现【无需翻墙&#xff0…

UV紫外激光打标机的优缺点是什么

​ UV紫外激光打标机具有以下优点&#xff1a; 1. 精度高&#xff1a;紫外激光打标机的光束质量好&#xff0c;聚焦光斑小&#xff0c;可以实现在各种材料上进行超精细打标。 2. 速度快&#xff1a;由于紫外激光的独特特性&#xff0c;打标速度非常快&#xff0c;提高了生产效…

SpringSecurity认证登录成功后获取角色菜单

目录 前言 一、RBAC模型 二、实战应用 1. 建立用户、角色、资源实体类 2. 数据层查询角色资源 3. 业务层实现&#xff0c;调用数据层查询接口 4. SystemController控制器菜单获取方法 5. menu.jsp菜单页面实现 前言 本篇文章接SSM项目集成Spring Security 4.X版本&…

搭建nodejs服务器

简单搭建nodejs服务器&#xff0c;用于爬虫js逆向. 1、安装镜像源 下载nrm npm install -g nrm 设置下载源&#xff1a;&#xff08;最好使用npm源或者淘宝源&#xff09; 例子&#xff1a;npm config set registry http://registry.npmjs.org 查看是否设置成功&#xff1a…

数据结构之线性表(一般的线性表)

前言 接下来就开始正式进入数据结构环节了&#xff0c;我们先从线性表开始。 线性表 线性表&#xff08;linear list&#xff09;也叫线性存储结构&#xff0c;即数据元素的逻辑结构为线性的数据表&#xff0c;它是数据结构中最简单和最常用的一种存储结构&#xff0c;专门存…

探索文件与交互:使用PyQt5构建一个高级文件选择器

在当今的应用程序开发中&#xff0c;文件管理和交互是一个重要的组成部分。特别是对于桌面应用程序&#xff0c;提供一个直观、功能丰富的文件选择器是提高用户体验的关键。 本篇博客&#xff0c;我将介绍如何使用Python和PyQt5来构建一个高级的文件选择器&#xff0c;它不仅能…