车载GPT爆红前夜:一场巨头竞逐的游戏

在基于GPT-3.5的ChatGPT问世之前,OpenAI作为深度学习领域并不大为人所看好的技术分支玩家,已经在GPT这个赛道默默耕耘了七八年的时间。

好几年的时间里,GPT始终没有跨越从“不能用”到“能用”的奇点。转折点发生在2020年6月份发布的GPT-3,从这一版本开始,GPT可以做比较出色的文本生成工作了,初步具备了“智慧涌现”能力。

再后来,OpenAI在GPT-3.5里加入了个人机交互界面,做了聊天机器人ChatGPT,迅速席卷全球,在短短的两个月的时间里,用户数量迅速突破1亿大关。

d54a97a43f15abb874a8d19ea9aa6044.jpeg图片来源:英伟达

海外的谷歌、Meta、特斯拉,国内的百度、华为、阿里、字节这些互联网巨头纷纷加码在GPT大模型上的投入,再后来,本土电动车企形形色色的GPT也陆续问世了。

自2023年第四季度开始,问界M9上的盘古大模型、理想OTA5.0里的Mind GPT,蔚来汽车上的NOMI GPT、小鹏XOS天玑系统里的XGPT陆续上车,不仅帮你写诗,还能帮你做事。

那么,这些车载GPT是如何横空出世的,它们又将为汽车上带来何种变化呢?

一、大模型上车:开源 VS 闭源

早期,没有在大模型方面布局的本土车企是借助国内外开源的基础大模型自研GPT,这应该也算是业内公开的秘密。原因无他,真正自研大模型实在太消耗资源了。

大模型的赛道非常卷。为了缩短训练时间,且提高训练效率,OpenAI、谷歌、Meta这些巨头的基础大模型都是投入大几千张甚至几万张A100、H100显卡训练出来的。

1万张A100大约对应3.12E的训练算力。公开信息显示,国内头部车企里,华为用在汽车业务上的训练算力3.5E,百度为2.2E,蔚小理的算力规模都在1E左右。

在一次访谈中,马斯克透露过xAI的Grok(据说要上特斯拉的车)训练投入了8000张A100。从GPU小时来算,且不说这些闭源的参数量奔着万亿级别而去的大模型,即便那些开源大模型,其消耗的GPU资源都是不可承担之重。

据悉,Meta开源的LLaMA-2-70B的大模型,使用了2000个英伟达A100训练,耗费了172万个GPU小时;地表最强开源大模型Falcon-180B,使用了4096个A100 GPU,耗费了约700万 GPU小时进行训练。

bad4e9bafceca1cf8e7af546810eddaf.jpeg来源:马斯克访谈

无论从什么角度,不以大模型为主业的本土车企,都不可能为这个赛道投入这么巨大的资源,而且,几万张A100/H100(百亿美金)远不是这些现在基本上还无法盈利、只能依靠资本市场输血的车企所能承担的了的。

所以,采用开源大模型自研可满足车用场景的GPT,成了本土车企的捷径,也几乎是唯一可行的路径。

只有少数巨头强势赋能的车企,才会采用了自研基础大模型的方案。比如,华为系的问界、智界和百度系的极越,真要算起来,华为的盘古大模型和百度的文心一言问世的时间也不短了。

稍许遗憾的是,这两个大模型至今没有产生破圈效应,GPT上车的时间也并没有比蔚小理早很多。

这背后有一系列复杂的原因。

一方面,正如华为高管在2023年的华为开发者大会上所说的那样,“我们的大模型不做诗,只做事”,因为一直做着to B的生意,没有to C,所以没有被大众所熟知。

另一方面,盘古大模型和文心一言之前基础能力不足,基础能力的不足来自于参数规模比较小、训练数据和训练时间不足。

必须承认,直到OpenAI的ChatGPT问世之后,整个行业及业界专家才真正接受了比例定律Scaling Law,建立了可以通过扩大模型规模、增加训练数据量、延长训练时间实现模型性能持续提升的“信仰”。

信仰不足、意见不一是之前不够大的大模型基础能力不足,从而没有产生破圈效应的重要原因。

即便认可了比例定律的第一性原理,要从千亿参数迈进到万亿参数,也需要对模型设计做大量的科研工作,才能解决参数数量级提升引发的梯度爆炸等一系列问题。

无论如何,虽然同是率先将大模型技术搬上汽车的第一阵营,华为(问界和智界)/百度(极越)的大模型上车路径和蔚小理还是有着明显的区别,其本质的区别就在于前两家的基础大模型来自自力更生,而新势力的基础大模型很大可能来自于业界的开源方案。

二、 专心做训练也是一种自研

除了参数量达到1800亿的Falcon-180B(去年9月份开源),开源基础大模型的参数一般都在几百亿级别。这是巨头的游戏。

扎克伯格的Meta是开源大模型的主要贡献者,它们开源的LLaMA-70B的参数在700亿左右。

另一玩家是谷歌,也许是意识到了无法打败OpenAI,带着搅局或者不想让OpenAI垄断基础大模型市场的心思,谷歌正加快开源的动作,它最近开源了两个大模型——Gemma 2B和7B,可分别在端侧和云端部署。

根据这些巨头宣布开源大模型的时间做一个推论,蔚小理等本土车企们用的开源大模型的参数量大概在千亿左右。

这些开源基础大模型提供的不只是模型结构的细节,更重要的是,它们经过了万亿Token的训练,模型里的权重参数已经是完成度很高的可用状态。对于基于开源大模型做训练的车企而言,要做的工作是寻找或建立能够适用于车用场景的数据集,再进行微调训练。

在开源基础大模型上面做定制,从而训练出微调大模型的过程,就好比学霸上完了高中,并将他脑袋里成熟的神经网络复刻到你的脑袋里,然后你再去上大学选个专业,在这个专业领域单兵突进,继续深造。

比如,现在有专门面向医疗行业、财税行业的大模型,同样是在基础大模型之训练出来的。

再比如,一小撮程序员训练出来志在消灭大多数程序员的软件开发者大模型——GitHub Copilot,和最近让码农们闻风丧胆的Davin。

2de379619fcf4e4762d34aa69f21b65b.jpeg图片来源:GitHub

和华为系、百度系相比,蔚小理的GPT在参数量上也许小了一个数量级,但这并不意味着NOMI GPT们在车载场景下的专项能力一定会低于华为/百度系车企,几百亿参数的大模型足以将文本形式的所有人类知识压缩进去

再者,加大训练数据规模同样可以提升大模型的表现,可以认为,数据集的作用并不亚于模型参数。

在2023年的微软Build大会上,Andrej Karpathy大神在阐释参数量和Token数量对大模型性能的影响时,对2020年问世的GPT-3和2023年问世的LLaMA-65B做过对比。

8e5100d0d460e062147874f2d2f8c49b.jpeg图片来源:微软Build大会

2020年发布的GPT-3的参数量为1750亿,训练Token数量为3000亿(随着时间的增加,会继续追加训练数据规模),LLaMA-65B的参数量为650亿,用于训练的Token数量介于1万亿-1.4万亿之间。

GPT-3参数量更大,表现却不及LLaMA-65B,背后的主要原因就在于LLaMA进行了更加充分的训练。

在训练上,其他玩家也可以站在巨人的肩膀上,向训练完备、表现出色的大模型投喂更多的训练语料。而且,在一定程度上,语料库也是现成的。

过去几十年,除了寻求如何设计更加可泛化的推理机制,设计可通向人类通用能力和常识的神经网络和大模型,人工智能研究人员还把大量的精力放在了孜孜不倦地构建包含大量常识语料库的知识库上面。

比如,用于训练和评估用于检测机器释义文本模型的Identifying Machine-Paraphrased Plagiarism、通用文本分类数据集Wikipedia、Reddit 和 Stack Exchange、QA 数据集Quoref 、 基于文本的问答数据集TriviaQA等等。

这背后有大量的工作要做。因为,和基础大模型可以通过无监督、无需标注的数据进行训练不同,在基础大模型之上进行微调训练时,需要通过有监督和基于人类反馈的强化学习形式,在标注过的高质量数据集上进行训练,通过对话形式进行专项能力训练,工作量也不容小觑。

46e3b1c131ee54c0b07ce51c44a603f7.jpeg图片来源: Andrej Karpathy

三、大模型上车的部署路径

大模型自有其训练机制,在车端的部署路径也日益清晰。

按照难易程度和各个头部车企的大模型上车实践,可以做出一个比较清晰合理的判断:大模型将全面改造智能座舱,并有望在几年后真正部署在智能驾驶方案中。

智能座舱是人机交互集中发生的地方,人和机器或智能体的交互主要体现在机器对人类意图的理解、记忆和推理三个方面,大模型天然具备超强的理解和生成能力,并可以通过提高上下文的长度增强记忆能力,再加上智能座舱的容错能力特别强,所以,从技术和应用场景的契合度上,大模型和智能座舱可谓天作之合,也必然大幅度提升人机交互体验。

理想汽车在MEGA发布会上,介绍了Mind GPT的四大落地场景:百科老师、用车助手、出行助手和娱乐助手,基本总结了大模型技术当前在智能座舱领域的几个用武之地。

141b84bc3d4ffa9b7d14596b4e7173ba.jpeg图片来源:理想汽车

自动驾驶领域也是大模型可以大显身手的地方。

大模型对自动驾驶的意义目前主要体现在加快算法开发和模型迭代速度上,比如毫末智行发布的大模型DriveGPT雪湖·海若可以在“训练阶段”进行数据的筛选、挖掘、自动标注,在“仿真阶段”生成测试场景。

不过,由于自动驾驶对安全性的要求特别高,对实时性的要求也极为严苛,要在车端部署大模型形式的自动驾驶方案还需要很长一段时间。

业界还在探索在“开发阶段”利用大模型(生成式的多模态大视觉语言模型),比如理想汽车最近和清华联手开发的DriveVLM,部署在英伟达Orin X上的话,推理能力需要0.3秒

0.3秒是个什么概念?就是如果你以20米每秒(对应72公里每小时)的速度开车,0.3秒可以跑出去6米。。。这还仅仅是考虑到了实时性这个单一因素,还没有涉及到大模型的幻觉对安全性的威胁。

所以,大模型改造智能座舱可谓指日可待,但用在自动驾驶方面,只能说任重道远,未来可期。

总体上,面对激烈的市场竞争,本土车企不能放过任何一个风口,大模型这种超级大的风口绝对不能错过,其他车企今年会陆续传来大模型上车的消息,这一点基本上毋庸置疑。

接下来这一年,大家可能需要做好迎接各种车载大模型炫技的测评视频满天飞的准备,不过,也不用太理会他们说的怎么天花乱坠,大模型从“能用”到真正“好用”,再到产生破圈效应,诸位且耐心等一等吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/625605.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

实时“秒回”,像真人一样语音聊天,GPT-4o模型强到恐怖

今天凌晨OpenAl发布了 GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。 能实时响应用户的需求,并通过语音来实时回答你,你可以随时打断它。还具有视觉能力,能识别物体并根据视觉做出快速的…

Fabric实现多GPU运行

官方的将pytorch转换为fabric简单分为五个步骤: 步骤 1: 在训练代码的开头创建 Fabric 对象 from lightning.fabric import Fabricfabric Fabric() 步骤 2: 如果打算使用多个设备(例如多 GPU),就调用…

gin导出excel文件

go可以通过excelize 包实现对excel的操作 "github.com/xuri/excelize/v2"导出示例 service层 批量导出数据的,我们可以在dao层中返回一个切片。在service中新建一个excelize对象,单独设置表头。遍历切片往excelize上修改即可。 func (s *S…

05-13 周一 量化是什么

05-13 周一 量化是什么 时间版本修改人描述2024年5月13日11:27:25V0.1宋全恒新建文档2024年5月14日16:21:20V1.0宋全恒了解 简介 神经网络在运行时有较高的计算成本,而且随着大模型时代的到来,知识由一个巨大的LLM存储,为了获取知识&#xf…

【STM32】状态机实现定时器按键消抖,处理单击、双击、三击、长按事件

目录 一、简单介绍 二、模块与接线 三、cubemx配置 四、驱动编写 状态图 按键类型定义 参数初始化/复位 按键扫描 串口重定向 主函数 五、效果展示 六、驱动附录 key.c key.h 一、简单介绍 众所周知,普通的机械按键会产生抖动,可以采取硬件…

【江南大学×朗汀留学】部分留学录取案例合集

朗汀留学 X 江南大学 尽管客观条件如此艰难,朗汀留学的同学们还是斩获众多名校的录取。成绩属于过去,我们继续努力创造更好未来。 以下为我们摘取的江南大学部分学生案例供大家参考,再次恭喜所有获得理想大学offer的学生们,你们…

CAST: Cross-Attention in Space and Time for Video Action Recognition

标题:CAST: 时空交叉注意力网络用于视频动作识别 原文链接:2311.18825v1 (arxiv.org)https://arxiv.org/pdf/2311.18825v1 源码链接:GitHub - KHU-VLL/CASThttps://github.com/KHU-VLL/CAST 发表:NeurIPS-2023(CCF A…

Linux第四节--常见的指令介绍集合(持续更新中)

点赞关注不迷路!本节涉及初识Linux第四节,主要为常见的几条指令介绍。 如果文章对你有帮助的话 欢迎 评论💬 点赞👍🏻 收藏 ✨ 加关注👀 期待与你共同进步! 1. more指令 语法:more [选项][文件]…

MySQL文档_下载

可能需要:MySQL下载–》更新版本–》迁移数据库到MySQL 以下都不重要【只要确定好需要安装版本,找到对应的版本下载,安装,设置即可】 下载、安装: Determine whether MySQL runs and is supported on your platform…

电脑刚开机的时候不卡,用一会就变卡顿了…怎么回事?

前言 昨天咱们聊到旧电脑更换了固态硬盘之后,开机就会变快的事情,这个确实是可行且有效的升级电脑办法之一。 看完这篇之后,切莫着急升级电脑硬件配置,因为这里的坑比你想象的还要多。 从机械硬盘测试的数据和固态硬盘的测试数…

【C语言】—— 动态内存管理

【C语言】——动态内存管理 一、动态内存管理概述1.1、动态内存的概念1.2、动态内存的必要性 二、 m a l l o c malloc malloc 函数2.1、函数介绍2.2、应用举例 三、 c a l l o c calloc calloc 函数四、 f r e e free free 函数4.1、函数介绍4.2、应用举例 五、 r e a l l o …

SSL协议

SSL 安全传输协议(安全套接层) 也叫TLS ---- 传输层安全协议 SSL的工作原理:SSL协议因为是基于TCP协议工作的,通信双方需要先建立TCP会话。因为SSL协议需要进行安全保证,需要协商安全参数,所以也需要建立…

【数据结构】栈和队列专题

前言 上篇博客我们讨论了栈和队列的有关结构,本篇博客我们继续来讨论有关栈和队列习题 这些题算是经典了 💓 个人主页:小张同学zkf ⏩ 文章专栏:数据结构 若有问题 评论区见📝 🎉欢迎大家点赞&#x1f44d…

Oracle 临时表空间的管理

Oracle 临时表空间的管理 临时表空间的处理 1.创建一个新的temporary tablespace; create temporary tablespace tp tempfile ...... size 10m autoextend on; 2.改变数据库的默认临时表空间 alter database default temporary tablespace tp; 3。drop tablespace temp; …

Zoho CRM企业成长的智能引擎,智能化销售自动化

数字化时代,客户体验已成为企业竞争的核心要素。卓豪Zoho CRM,作为全球领先的SaaS云端客户关系管理平台,正引领着一场企业运营模式的变革,助力超过25万家企业跨越180多个国家,实现客户互动与业务增长的无缝对接。让我们…

Verlog-流水灯-FPGA

Verlog-流水灯-FPGA 引言: ​ 随着电子技术的飞速发展,现场可编程门阵列(FPGA)已成为电子设计自动化(EDA)领域中不可或缺的组件。FPGA以其高度的灵活性和可定制性,广泛应用于通信、图像处理、工…

【C++】学习笔记——继承_2

文章目录 十二、继承5. 继承与友元6. 继承与静态成员7. 复杂的菱形继承及菱形虚拟继承 未完待续 十二、继承 5. 继承与友元 友元关系不能继承,也就是说父类友元不能访问子类私有和保护成员 。除非子类也设置成友元。 6. 继承与静态成员 父类定义了 static 静态成…

单用户模式破解root密码

目录 一. 破解root密码 1. 查看操作系统版本 2.重启系统,进入grub菜单,选择要使用的内核,按e进入​编辑 3. 找到linux16那一行,把光标移动到最后,添加 init/bin/sh 然后ctrlx保存退出会自动进入系统 4. 进入系统后…

Spring WebFlux:响应式编程

在软件开发领域,随着互联网应用的规模和复杂性不断增加,传统的编程模型逐渐暴露出一些局限性,尤其是在面对高并发、大规模数据流处理等场景时。为了应对这些挑战,响应式编程(Reactive Programming)应运而生…

强化训练:day9(添加逗号、跳台阶、扑克牌顺子)

文章目录 前言1. 添加逗号1.1 题目描述2.2 解题思路2.3 代码实现 2. 跳台阶2.1 题目描述2.2 解题思路2.3 代码实现 3. 扑克牌顺子3.1 题目描述3.2 解题思路3.3 代码实现 总结 前言 1. 添加逗号   2. 跳台阶   3. 扑克牌顺子 1. 添加逗号 1.1 题目描述 2.2 解题思路 我的写…