2023最大技术潮:大模型冲击下的智能汽车

作者 |德新

编辑 |王博

0be7182827bebea81197a8e2b930faa4.jpeg

过去这年最大的技术潮,非大模型莫属。

2023年初,由ChatGPT掀起的浪花,迅速地演变成了席卷全球的AI科技浪潮。汽车行业在其中也不可避免。各大车企纷纷投入与大模型相关的布局。

  • 长城官宣成立了AI Lab,到2023年9月AI Lab已经有超过400人规模,这支团队由长城智能化副总裁吴会肖带队,并由AI Lab负责人杨继峰领衔。长城的AI Lab又称智能空间实验室。很明显长城的大模型发力的首站会是智能座舱空间。
  • 吉利在汽车研究院下也成立了类似的机构,AI智能研究部。吉利汽车集团CEO淦家阅在这年中期透露,吉利已经具备全栈自研的大模型技术。吉利自研大模型最早上车的车型,可能是马上要上市的银河E8。
  • 理想则在2023年6月份公布了大模型MindGPT,其原有的座舱人工智能助手理想同学将基于大模型打造新一代的多模态人机交互技术体系。MindGPT所展示的功能,在理想最近更新的OTA 5.0上刚刚落地兑现。

尽管由于车端算力的限制,千亿级参数规模的大模型还未被搬上车,但「BEV + Transformer」的框架在这年中几乎统一了所有厂商的智驾感知系统。无论在智能驾驶还是智能座舱上,更大规模、更为通用的模型正在替代此前多个专用小模型的格局。

「AI大模型不是普通的技术和创新,而是技术范式级的创新。」北大光华管理学院组织与战略管理系副教授王铁民在最近的一次分享中这样总结。

什么叫「范式级的创新」?科学哲学家托马斯·库恩早在1962年给了一个定义,是指「那些公认的科学成就,在一段时间里为实践共同体提供典型的问题和解答」。

简单来说,在未来相当长一段时间内,AI大模型将是很多技术问题的答案。

一、大模型上车,首先从座舱语音开始

关于大模型上车给车端带来什么,在过去一年中有很多讨论与实践。

49c27a39337c87efc7c96a57118d8a98.jpeg

腾讯智慧出行副总裁钟学丹,在近期腾讯与北大光华联合举办的「AI+出行」产业沙龙上,这样总结AI赋能下的汽车新智能:

  • 第一,它重新定义了汽车的人机交互方式;
  • 第二,明年或者在未来一段时间内,无论是高速还是城区的自动驾驶,将涌现越来越多的端到端的技术;
  • 第三,舱驾一体的趋势将加快落地;
  • 第四,汽车将变成开放的平台,将接入更多的服务和体验内容,来帮助用户解决实际的问题。

236aae321004532ba0cc49d42bc5ca97.jpeg

座舱领域,尤其是语音交互,可能是过去这年用户感知变化最为明显的领域。

钟学丹认为,当前结合大模型,语音正在发生新的变化。交互方式正从规则模式是转变为更自然的方式;交互场景,从过去单一任务的交互,转变为基于多任务的应用;座舱也正从单一语音交互向多模态交互转变。

iPhone开启了消费电子的触控交互时代,目前绝大部分消费电子的交互都是以触控为主,汽车也延续了这样的交互方式。但差别在于无论是手机、iPad还是电脑,都属于大部分时间是一个人使用的私人设备,汽车是比较少见的一对多的设备。所以,汽车当前以触控为主、语音为辅的交互方式未必是最佳方案。

理想汽车智能空间副总裁勾晓菲认为,大模型的出现让语言的理解能力迈上了一个新的高度。因此,从智能空间的角度,理想希望推动未来车内的主要交互形态,从触控为主、对话为辅,逐步向以对话为主、触控为辅转变。

因为对话式的交互,用户是完全开放式的输入,所以下个阶段行业面临的很大挑战是,座舱一端的输出也要变成开放式的——即所有的UI都会变成生成式的,UI的布局要根据用户的语言逻辑自动生成,高度匹配用户的语义。

与此同时,今天座舱应用提供的能力都是基于各个公司的垂直领域相互独立的。比如用户要去吃望京的美食,需要跨美团和地图两个应用。未来不同的科技企业都会有属于自己的Agent,它代表了各自公司的通用能力和私域能力,这些Agent可能会像人与人一样组建成社会网络。在数字世界里,Agent组成的社会网络,通过这种全新的接口形式把各家的能力联通起来。

二、大模型驱动的下一代自动驾驶

理想汽车有一组内部数据,60%的出行场景下,只有驾驶员一个人在车内。所以如果不能通过自动驾驶把驾驶员解放出来,智能座舱是无法发挥价值的。

与高度个性化的座舱服务不同,自动驾驶是极度标准化的功能。勾晓菲甚至认为,「自动驾驶一旦实现,是没有什么想象空间的,但座舱的人机交互背后有强大的生态和非常多的服务,背后有无限的想象空间。」

自动驾驶目前所处的阶段,无论从技术研发还是市场占有率上,都在高速增长。

由于城区自动驾驶功能的快速推进,「BEV + Transformer + 占用网络 + 无图化」是过去这年头部车企的主力研发方向。「BEV 上车」,以具备鸟瞰视角(Bird's Eye View)的大模型实现了多摄像头的融合感知,从而大幅提高了智驾感知的数据驱动比例。

在上一年的CVPR 2023上,还提出了UniAD的论文工作,将感知、决策、规控等模块整合到一个端到端的网络。以一个深度神经网络为基础,以提升最终的驾驶体验为目标进行端到端的优化,可以极大地提升智驾系统的开发效率。

特斯拉FSD的下一个大版本,V12也将引入端到端的网络。

钟学丹认为,过去业界在开发自动驾驶系统时,做的是感知与规划分离,这种分离的方式是不符合用户的驾驶行为和体验的。而如何实现端到端的自动驾驶全链路的模型,更多关注到最终达成更好驾驶体验的目标,是更重要的解决路径。

除了对自动驾驶端到端技术架构的影响,大模型也在帮助提升针对训练需要的海量数据标注。

在Mind GPT发布之后,李想就曾经表示,理想内部一年要做大概1000万帧的自动驾驶图像的人工标定,外包的价格大概6元到8元钱一张,一年成本接近一亿元。当使用大模型进行自动化标定,过去需要用一年完成的工作基本上3个小时就能搞定,效率提升千倍。

从车端到云端,大模型正全面推动自动驾驶的体验进化。

三、掘金大模型的挑战

除了智能驾驶、智能座舱这两大最常见的智能化领域,汽车从生产、制造、营销、服务的全链条,也可能被大模型改造。

腾讯智慧出行副总裁钟学丹提出了一些案例,比如在设计研发领域,腾讯云AI代码助手的能力已经可以帮助开发团队完成编码的编制、测试以及质量提升

通过AIGC生成的数字化营销内容,可以帮助销售团队更好地理解用户。比如在卖车的过程中,每个用户对车的需求和想法都不一样,如何为TA创造独特的内容,如何让内容的表述更好地切中潜在车主的需求,将对销售转化有很大帮助。

长城汽车AI Lab的负责人杨继峰也告诉我们,内部已经开始使用AI长做在做造型设计,并且其使用AI的作品与人工设计的作品拿来做图灵测试,目前已经很难辨认出来是否是由AI设计的。

0692afca6027f75d84f1b24a3160ae1d.jpeg

钟学丹也提到,大模型要在全产业链条上落地,目前有三大挑战,模型挑战、数据挑战以及算力挑战

算力挑战最容易理解,当前高算力的GPU对全行业而言都是稀缺资源。

HiEV获悉一家互联网巨头在年初向英伟达下了10亿美元的GPU订单,但随着对高算力计算平台的出口限制,GPU越发稀缺,尤其在去年9/10月之后,不少企业的供应链团队都在加班加点解决算力的缺口问题。

而数据挑战,源于对数据合规与数据安全的要求,尤其在自动驾驶领域,车辆感知的数据处理不当直接影响地理信息安全,而用户车内的数据则涉及隐私安全。

目前虽然通用大模型正上演「百模大战」,但对于垂直行业应用而言,其准确率仍达不到应用要求,大模型如何针对行业应用开发调教,以及对应行业训练数据的质量提升,仍任重道远。

互联网巨头们是这波「百模大战」最积极的参与方和推动者,无论从模型训练、算力建设还是数据挖掘上,他们都有丰厚的储备。

通用大模型可以帮助行业开发者快速建立行业大模型的基础。以腾讯为例,腾讯的混元大模型有超千亿级的参数规模,预训练语料超过2万亿Token。目前在腾讯云上,已经有超过300个应用接入混元大模型,用在广告、营销、游戏、社交等场景。

腾讯也对外提供大模型的一站式商店——MaaS平台(模型即服务),帮助企业快速打造专有的模型应用。在底层设施上,提供大规模训练集群和高性能计算网络,带来业界最高3.2Tbps带宽,算力性能提升3倍,为大模型训练提供智算能力支撑。在面向大模型的特殊数据场景上,向量数据库可以帮助系统在数据访问效率带来10倍提升。

不少人将2023年称为大模型元年,大模型的技术盛宴才刚刚开始,而汽车作为当前最大的消费电子单品,可能会成为从中技术获益最大的一支。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/289277.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python从入门到精通之元类

系列 Python从入门到精通之安装与快速入门-CSDN博客 Python从入门到精通之基本数据类型和变量-CSDN博客 Python从入门到精通之集合(List列表、Tuple元组、Dict字典、Set)-CSDN博客 Python从入门到精通之条件语句、循环语句和函数-CSDN博客 Python从…

Hi5 2.0 虚拟手与追踪器(Tracker)的位置修正

问题描述 使用环境与工具:Unity 2022.3.4fc1,steam VR(2.7.3),steamvrSDK(1.14.15),HTC vive pro专业版,Hi5 2.0数据手套 首先按照Hi5 2.0的使用说明(可参考:HI5 2.0 交…

Character Controller Smooth

流畅的角色控制器 Unity的FPS解决方案! 它是一种具有非常平滑运动和多种设置的解决方案: - 移动和跳跃 - 坐的能力 - 侧翻角度 - 不平整表面的处理 - 惯性守恒 - 重力 - 与物理物体的碰撞。 - 支持没有家长控制的平台 此解决方案适用于那些需要角色控制器…

蓝桥圣诞树(C++)

问题描述 输入样例: 1 3 101 1 2 2 3 输出样例: YES 思路: 这道题还是比较好想的,因为它构造的二叉树是用边连接起来的,不是像之前一样从上到下从左到右按编号构造的,所以可以用邻接表来存每个点还有边&am…

【JAVA】AI医疗导诊系统源码

智能导诊系统是一种基于人工智能和大数据技术开发的医疗辅助软件,它能够通过对患者的症状、病史等信息进行计算分析,快速推荐科室和医生。通过简单的描述自身症状,系统即可找到最适合的科室,实现线上高效挂号,线下门诊…

drf知识--10

接口文档 # 后端把接口写好后: 登录接口:/api/v1/login ---> post---name pwd 注册接口 查询所有图书带过滤接口 # 前后端需要做对接,对接第一个东西就是这个接口文档,前端照着接口文档开发 公司3个人&#xff…

性能测评高效云盘、ESSD Entry云盘、SSD云盘、ESSD云盘、ESSD PL-X云盘及ESSD AutoPL云盘

阿里云服务器系统盘或数据盘支持多种云盘类型,如高效云盘、ESSD Entry云盘、SSD云盘、ESSD云盘、ESSD PL-X云盘及ESSD AutoPL云盘等,阿里云百科aliyunbaike.com详细介绍不同云盘说明及单盘容量、最大/最小IOPS、最大/最小吞吐量、单路随机写平均时延等性…

数据库中的几种锁

数据库锁 1.数据库锁的种类 以 mysql innoDB 为例,数据库的锁有 排他锁,共享锁,意向锁,自增锁,间隙锁,锁的范围有包括,行锁,表锁 ,区间锁。 从应用研发的视角&#xff…

Linux 进程和计划任务管理

一 内核功用:进程管理、内存管理、文件系统、网络功能、驱动程序、安全功能等 1 程序 是一组计算机能识别和执行的指令,运行于电子计算机上,满足人们某种需求的信息化工具 用于描述进程要完成的功能,是控制进程执行的指令集 2…

电路笔记 :自激振荡电路笔记 电弧打火机

三极管相关 三极管的形象描述 二极管 简单求解(理想) 优先导通(理想) 恒压降 稳压管(二极管plus) 基础工作模块 理想稳压管的工作特性 晶体管之三极管(“两个二极管的组合” ) 电弧打火机电路 1.闭合开…

竞赛保研 基于机器视觉的停车位识别检测

简介 你是不是经常在停车场周围转来转去寻找停车位。如果你的车辆能准确地告诉你最近的停车位在哪里,那是不是很爽?事实证明,基于深度学习和OpenCV解决这个问题相对容易,只需获取停车场的实时视频即可。 该项目较为新颖&#xf…

Docker与虚拟机的比对

在Windows操作系统上的对比: 但是官方还是建议我们尽量不要将Docker直接安装到Windows操作系统上。

k8s 之7大CNI 网络插件

一、介绍 网络架构是Kubernetes中较为复杂、让很多用户头疼的方面之一。Kubernetes网络模型本身对某些特定的网络功能有一定要求,但在实现方面也具有一定的灵活性。因此,业界已有不少不同的网络方案,来满足特定的环境和要求。 CNI意为容器网络…

[C语言]比特鹏哥

主页有博主其他上万字精品笔记,都在不断完善更新! C语言 初识C语言 基本了解C语言的基础知识,对C语言有一个大概的认识。 每个知识点就是简单认识,不做详细讲解,后期课程都会细讲。 本章重点: 什么是C语言 第一个C语言程序 数据…

MySQL是如何做到可以恢复到半个月内任意一秒的状态的?

MySQL的逻辑架构图 MySQL中两个重要的日志模块:redo log(重做日志)和binlog(归档日志) 我们先来看redo log: 介绍一个MySQL里经常说到的WAL技术,即Write-Ahead-Logging,它的关键点…

2024年了,如何制作高水平简历?(附模板)

Q:什么是高水平的简历? A:满足HR需求的同时,最大化的体现自身价值的简历是高水平的简历 HR的需求是什么? ✅ HR想看到清晰专业的简历模板 ——家人们每天看几百份简历谁懂啊!花里胡哨真看不下去一点&…

阿里是如何去“O”的?

大家好,我是老猫,猫头鹰的“猫”。 今天我们来聊聊数据库这个话题。 2009年,阿里提出“去IOE化”的概念,这在当时看起来是天方夜谭,但目前来看可以说是"轻舟已过万重山"。 IOE是传统IT三大件,…

消息队列神器:打造高效、可靠的分布式系统

消息队列(Message Queueing)是现代应用架构中不可或缺的组件,它在处理大规模数据流、服务解耦、系统伸缩性和异步通信等方面发挥着关键作用。但是,要充分利用消息队列,我们必须解决一系列关于高可用性、一致性、顺序性…

你真的知道2024程序员搞钱新姿势吗?

2023年即将过去,2024的序曲已经奏响!回顾2023,我们经历了降薪裁员的大趋势,身为程序员也有点惶惶不可终日,害怕会失去工作,害怕面对家人无奈的模样,害怕跟不上时代的步伐,沦为被大环…

MP3音乐播放器搜索引擎-在线搜索MP3歌曲实现(一)

首先添加网络模块和播放模块 下载文件&#xff0c;获取响应&#xff0c;错误处理,加上可以进行网络访问 要加上头文件#include<QNetworkAccessManager> 上面头文件发送请求后返回的响应类用下边的头文件 #include<QNetworkReply> 添加多媒体播放列表#include&…