中国版Wayve决战端到端,等待数据的大力出奇迹

作者 |王博

编辑 |德新

53d9e5d4a63181ee848126f175ecbb41.jpeg

「人工智能的定律只有一个,就是规模定律(Scaling Law),大力出奇迹。端到端是描述方式,更应该去考虑如何去生产更多的自动驾驶合适的数据,来喂养更大更合适的模型,取得更好效果。」

这段话,出自毫末智行CEO顾维灏。

近日,顾在2024未来汽车先行者大会上,提到了他认为的端到端竞争的关键点。

端到端的出现,让自动驾驶今年再获资本热捧。

不久前,自动驾驶圈刚曝出一轮10.5亿美金的融资消息,软银领投,英伟达、微软跟投,获投方是一家名为Wayve的英国自动驾驶公司。

这是软银在自动驾驶领域的最新一笔投资,之前其已在Cruise、Stack AV等公司身上花掉数十亿美金。

Wayve自2017年成立至今,推出的核心产品是GAIA-1、LINGO-2两个自动驾驶大模型,主打端到端大模型。

这一点,和毫末在端到端的布局颇为相像。

5898a1f8b118f223cc845bd733f5ca8d.jpeg

毫末已搭建自监督感知大模型、自监督认知大模型,并开始进行端到端训练等,虽然命名方式不同,但与Wayve的思考路径相似。

自动驾驶将大模型引入后,解题思路完全改变。

从以自动驾驶工程师手写规则,指导车辆如何驾驶为主,切换到以AI来答卷,让神经网络大模型决定如何开车,程序员终于可以「少掉头发」。

10亿美金融资,让外人见识到自动驾驶大模型的受关注程度。而其实,在智驾标杆特斯拉和自动驾驶的热土中国公司毫末这里,大模型上车已经初试牛刀,胜出希望寄托在数据的大力出奇迹。

一、换种思路,解决头疼问题

大模型概念兴起于NLP领域,直到ChatGPT出现后,GPT这一全新的训练范式迅速被自动驾驶从业者认同,行业上下如获至宝。

在GPT被引入之前,2004年美国DARPA那场自动驾驶比赛之后的十多年里,研发模式仍与当年的DAPRA如出一辙。

以识别车道线为例,传统操作步骤是,先采集车道线数据,然后进行人工标注,再把标注完的数据训练成一个模型,最后把模型部署上车,再使用规则控制车辆做出决策。

这可以称之为小模型加手工规则。

GPT被引入自动驾驶后,研发模式焕然一新

在大模型领域一早布局的Wayve,成立于2017年,直接跳过了传统的自动驾驶研发模式,瞄准大模型发力。

只不过,业内最先看到的是特斯拉。

在去年6月举行的CVPR 2023上,特斯拉Autopilot软件总监Ashok Elluswamy透露,团队正在训练一个更通用的世界模型。

特斯拉引入大模型,一部分原因在于,传统的自动驾驶研发模式,在城市场景中遇到了困难。

仍以车道线场景为例,实时预测车道线一度是自动驾驶头疼的问题。“车道是三维数据,会分叉、合并,很难建模。”Ashok Elluswamy解释道。

特斯拉的做法是,基于生成式大模型,采用自回归Transformer,将车道令牌化,一次一个令牌地对车道进行预测,对分叉点、合并点进行预测。

其实,早于Ashok Elluswamy演讲前一天,Wayve已在自家官方博客上发布GAIA-1,一个用于自动驾驶的生成式大模型。

aed727ef3fbcf1bec845b117f941ad96.jpeg

几个月后,这一模型扩展至90亿参数,Wayve开始能够生成逼真的驾驶场景视频,展示自动驾驶“在各种情境的反应”,且可以更好地预测未来事件。

今年4月,在NVDIA GTC的舞台上,Wayve CEO Alex Kendall演讲时表示,「自动驾驶行业花费了太多时间聚焦在复杂解法上,比如手动编码规则和高精地图。」

他列出几个自动驾驶误区,第一个便是,以为解决感知问题就搞定了自动驾驶。

“要想创造一种让人们感到高兴并信任的体验,关键不仅仅是能够看到世界。真正的问题在于决策,多智能体复杂推理,才是自动驾驶问题的核心。”他说。

软银领投的那笔10.5亿美金,也在不久后被官宣,Wayve开始被更多自动驾驶领域的从业者认识和关注。

二、中国版Wayve,入局端到端

将大模型引入自动驾驶,Wayve同行者不止有特斯拉,还有中国的自动驾驶公司。

在国内,大家较早听闻大模型消息的玩家中,其中一家是开头提到的毫末。

毫末发布的DriveGPT这一生成式大模型,可用于自动驾驶的感知、决策任务。

开启GPT时刻之前,毫末最初采用的是encoder+dedocer模型,输入一串图片,模型会输出一串自动驾驶决策动作。

后来,这家公司还采用基于encoder自编码的训练方式,输入感知结果,mask司机的驾驶行为,让系统猜司机的驾驶行为。

ChatGPT出现后,毫末很快发现GPT的高效能力,就此入局。

生成式大模型有一大任务,可以归纳为:“建立了一个神经网络,以过去或其他输入为条件,预测未来。”

不同的是,Wayve和特斯拉输入的是视频序列,也就是一段过去的视频,神经网络会预测未来可能发生的事情,生成一段预测的视频序列。

毫末生成的是BEV序列,向大模型输入一段过去10秒的感知场景,大模型会生成一段未来2 - 3秒的场景。

无论各家输入的是视频还是BEV序列,逻辑是相同的。

这一方式,与人类司机驾驶根据道路状况做出驾驶决的做法颇为相似。它一改传统的手写规则,转而让神经网络决定如何开车,相当于借助大模型短暂预测了未来。

生成式大模型可以用于自动驾驶认知决策,这是一个很好的开始。

同时,毫末也在训练基于自监督的通用感知大模型,并最终希望将感知大模型、认知大模型打通,并引入大语言模型LLM来获得世界知识,实现端到端训练。

发布GAIA-1几个月后,2023年9月,Wayve又在自家官方博客上发文,介绍了LINGO-1,一款开环的Driving Commentator C(自动驾驶评论员),这是一个基于视觉、语言、动作的自动驾驶交互模型,可以用于解释自动驾驶系统的行为逻辑。

今年4月, Wayve推出的LINGO-2,为自动驾驶体验开辟全新的控制和定制维度,也是一个在公共道路上进行测试的视觉语言动作模型(VLAM)。这一多模态大模型被用于增加决策的可解释性。

在Wayve的官方视频中,用户可以和车辆进行对话,对行驶路线等问题进行提问,LINGO-2会给出回应,并能实时解释每一项决策背后的过程。

毫末的做法与之相似。

他们意识到,在构建对真实物理世界的4D感知基础上,通过多模态大模型,实现文、图、视频多模态信息的整合,从而完成4D向量空间到语义空间的对齐,实现跟人类一样的“识别万物”的能力。

与Wavye类似,毫末也尝试引入大语言模型LLM,并利用自动驾驶领域数据finetune后,使得LLM成为一个老司机,通过与LLM交互,能够获取丰富的世界知识,甚至能提出决策规划建议。

三、奔赴端到端,解决后续上车问题

大模型时代,人们见证了初出茅庐ChatGPT 3.0,很快又见识到更强的文生视频Sora,再到最近炸场的GPT-4o。

这些产品所采用的新技术,为自动驾驶持续输送思想的养料。

从Wayve和毫末等公司的实践看,大家都在遵循着大模型的思路,但仍会分阶段地推进,比如会推出解决某个模块任务大模型。

在探索自动驾驶最为积极的中国,玩家们会单独布局面向感知的大模型,然后布局用于驾驶决策的规控大模型。虽然这一过程中,某些地方还会用到CNN卷积神经网络,但整体会以Transformer为主。

所以,Wayve推出GAIA-1也好,LINGO-2也好,这些大模型也会进行统一,成为端到端大模型。

而毫末发布的DriveGPT,同样是将自动驾驶生成式大模型、多模态大模型、LLM等统一起来后的产物。

之后,就是 自动驾驶大模型上车,将大模型从云端搬到车端的过程

鉴于人工智能大模型的竞赛,是涉及算法、数据、算力的挑战,自动驾驶的竞争也会围绕这些维度展开。

进入端到端的大门,仅仅是第一步,紧接着就是数据的比拼

正如顾维灏所说,自动驾驶经历了硬件驱动、软件驱动,现在正进入数据驱动时代。“数据驱动有一个很典型的特征就是它是大模型的,更多通过模型来实现整个的过程。“

更多的数据,会让自动驾驶玩家们开始比拼算力,囤积成千上万块GPU,从而在云端完成自动驾驶大模型的训练。还要不断进行训练投入,传闻ChatGPT训练一次,需要花费1200万美金。自动驾驶的训练费用自然也不会少。

接下来就是大模型上车。

按照毫末的说法,动辄千亿级参数的大模型,要在保持效果接近的前提下,缩小到亿级才可能上车。

从量产层面看,目前仅有行业标杆特斯拉推出FSD V12,宣布将城市街道驾驶堆栈升级为端到端神经网络,经过数百万个视频训练,取代了30多万行代码,可以视为端到端落地的最新动向。

从一些国内自动驾驶公司的计划看,预计在今年下半年,更多的端到端自动驾驶方案也将量产上车。

资本正在为自动驾驶大模型定价,相信Wayve融资仅是一个开始。在国内,毫末等Wayve的同行者,也许很快会获得资本的押注。毕竟端到端大模型这条路,现在看是最有希望抵达自动驾驶彼岸的方向。


参考文献:
Wayve CEO干货分享:自动驾驶已浪费太多时间
VLAM会是自动驾驶的黑盒解药吗?
Wayve:从源头讲起,如何实现以对象为中心的自监督感知方法?
特斯拉自动驾驶的“通用世界模型”和视频生成技术|Ashok23年CVPR主题演讲
Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving
Wayve - NeRF 为自动驾驶构建城市规模的神经辐射场
“大模型本质就是两个文件!”特斯拉前AI总监爆火LLM科普
毫末智行自动驾驶公开课(第二期):数据、大算力、大模型驱动下的自动驾驶

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/687761.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

多目标应用:NSGA2求解无人机三维路径规划(MATLAB代码)

详细介绍 多目标应用:基于非支配排序的鱼鹰优化算法NSOOA求解无人机三维路径规划(MATLAB代码)-CSDN博客 一次运行结果 完整MATLAB代码 多目标应用:NSGA2求解无人机三维路径规划(MATLAB代码)

香港优才计划线上申请10大步骤,2024年流程截图,diy照做就可以

我是糖爸,已获批香港优才。10个步骤申请香港优才真的很简单,因为现在入境处只接受线上申请啦,你自己上传资料就可以,找中介也是你自己准备资料给他帮忙上传,何不自己动手上传呢,省个几万。 10大步骤分别是&…

吴恩达深度学习笔记:机器学习(ML)策略(1)(ML strategy(1))1.7-1.8

目录 第三门课 结构化机器学习项目(Structuring Machine Learning Projects)第一周 机器学习(ML)策略(1)(ML strategy(1))1.7 什么时候该改变开发/测试集和指…

智能视频监控平台LntonCVS视频融合共享平台保障露营安全解决方案

在当今社会,都市生活的快节奏和压力使得越来越多的人渴望逃离城市的喧嚣,寻求一种短暂的慢生活体验。他们向往在壮丽的山河之间或宁静的乡村中露营,享受大自然的宁静与美好。随着露营活动的普及,露营地的场景也变得更加丰富多样&a…

Three.js和Babylon.js,webGL中的对比效果分析!

hello,今天分享一些three.js和babylon.js常识,为大家选择three.js还是babylon.js做个分析,欢迎点赞评论转发。 一、Babylon.js是什么 Babylon.js是一个基于WebGL技术的开源3D游戏引擎和渲染引擎。它提供了一套简单易用的API,使开发…

UFS Explorer Professional Recovery: 如何从启用了 mSATA 缓存的 Drobo 设备中恢复数据

天津鸿萌科贸发展有限公司是 UFS Explorer Professional Recovery 数据恢复软件的授权代理商。 UFS Explorer Professional Recovery 数据恢复软件提供综合性的解决方案,用于解决复杂的数据恢复案例,包括那些采用特殊存储技术的案例,或介质受…

如何解决访问网站时IP被限制的问题?

在互联网上,用户可能会面临一个令人困扰的问题——当尝试访问某个特定的网站时,却发现自己的IP地址被该网站屏蔽。 IP地址被网站屏蔽是一个相对常见的现象,而导致这种情况的原因多种多样,包括恶意行为、违规访问等。本文将解释IP地…

jupyter notebook默认工作目录修改

jupyter notebook默认工作目录修改 1、问题2、如何修改jupyter notebook默认工作目录 1、问题 anaconda安装好之后,我们启动jupyter notebook会发现其默认工作目录是在C盘,将工作目录放在C盘会让C盘很快被撑爆,我们应该将jupyter notebook默…

日志分析集群最新版

日志分析集群-8版本 作者:行癫(盗版必究) 第一部分:Elasticsearch 一:环境准备 1.简介 ​ 部署模式:es集群采用无主模式 ​ es版本:8.13.4 ​ jdk版本:使用es内嵌的jdk21&#x…

易语言QQ机器人2.0源码

易语言QQ机器人2.0 效果图源码说明领取源码下期更新预报 效果图 源码说明 .程序集 Smessage, VJ_DirectUI .程序集变量 Format, StringFormat.子程序 _初始化, , , 当基于本类的对象被创建后,此方法会被自动调用.子程序 _销毁, , , 当基于本类的对象被销毁前&#x…

【论文阅读】MODELING AND SOLVING THE TRAVELING SALESMAN PROBLEM WITH PRIORITY PRIZES

文章目录 论文基本信息摘要1.引言2. INTEGER QUADRATIC PROGRAM FOR TSPPP3. MIXED INTEGER LINEAR PROGRAMS FOR TSPPP4. TABU SEARCH ALGORITHM FOR TSPPP5. COMPUTATIONAL RESULTS6. CONCLUDING REMARKS补充 论文基本信息 《MODELING AND SOLVING THE TRAVELING SALESMAN P…

鸿蒙开发教程:新手入门必看

一 开发设备要求 Windows环境运行要求: 根据华为官方文档,为了开发基于鸿蒙系统的应用,电脑的配置需求如下: 操作系统:建议至少为Windows 10 64位或Windows 11 64位版本。内存:至少需要8GB以上。硬盘空间…

MyBatis中 set标签

1、set标签特点: set标签用于更新语句中set标签解析为set关键字set可以去除跟新语句中无用的逗号通常是和if标签一起使用 2、set标签的使用 编写接口方法编写sql语句 注意 当set标签中有条件成立时就会附加set关键字,字段为null时该列不会被更新。se…

usock: No such file or directory

在搭建T113的tina系统时,运行ubusd报错,“usock: No such file or directory” rootTinaLinux:/# ifup -a Failed to connect to ubus /sbin/ifup: line 51: /sbin/wifi: not foundrootTinaLinux:/# ubusd usock: No such file or directory因为运行 ubu…

坐实了!“神坛企业”也是草台班子

越接近真相,越觉得荒诞!这次就算删稿也得说两句,KP基于BMC的“可信计算”,正在沦为业内笑柄。戳破那层保护色,施施然端坐神坛的某厂,内里可能也是个草台班子。 近期,网上流传着几页HW给客户洗脑…

HTML静态网页成品作业(HTML+CSS)—— 金宝贝儿童教育机构介绍网页(2个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有2个页面。 二、作品演示 三、代…

图解通用网络IO底层原理、Socket、epoll、用户态内核态······

LInux 操作系统中断 什么是系统中断 这个没啥可说的,大家都知道; CPU 在执行任务途中接收到中断请求,需要保存现场后去处理中断请求!保存现场称为中断处理程序!处理中断请求也就是唤醒对应的任务进程来持有CPU进行需要…

2024下《系统集成项目管理工程师》50个高频考点汇总!值得收藏

宝子们!5月软考考完了,终于可以考系统集成了! 整理了50个高频考点,涵盖全书90%考点,先把这个存下!再慢慢看书,边看书边背这个 1、信息安全的基本要素有: (1&#xff09…

游戏开发指南,一个充满想象力和机遇的职业领域!

游戏是软件里常见的一种类型,是常见的一种计算机娱乐方式。以前的游戏偏中大型游戏居多,现在发展为小型游戏较多,尤其是微信游戏的出现更加体现了这个特点。 随着游戏产业的蓬勃发展,越来越多的公司开始考虑将游戏制作外包给专业…