下半年交火点:智驾全国都能开,智舱多模态大模型

“你猜一猜我现在参加什么样的活动呢?”

“你参加的是WAIC,就是那个人工智能的大Party,超多科技高手都在这……”

“你帮我介绍一下这本书吧。”

“这书叫《反脆弱,从不确定性中获益》,讲的是怎么在混乱里找机会,作者塔勒布,来自土耳其,还写了《黑天鹅》,里面提了不少新词,像反脆弱者,书里挺有给我启发的东西……”

以上两段对话来自7月5日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)上,商汤科技发布的“日日新5.5”原生多模态大模型现场演示对话。大模型能从工作人员脖子上佩戴的胸卡带子上的文字识别出所在活动,随便翻开一本书,都能归纳总结整本书或者任何一页的内容,而且都在瞬间完成。

当天,商汤旗下智能汽车事业群商汤绝影发布了自动驾驶大模型DriveAGI,以及行业首个车载生成式交互界面“随心界面”(FlexInterface)、“随意操控”(AgentFlow)等基于多模态大模型的车载AI Agent应用。

图片

3月28日小米SU7发布会上的语音演示中,车主可以问小爱同学“这条隧道有多长?”“旁边路过的河是什么河”“前面的车是什么车”“有没有离簋街和望京都很近的川菜馆”,车载语音交互的历史进程向前迈进了一大步。

小米SU7语音交互背后就有商汤大模型的支持。商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚透露,商汤与小米的合作从去年的小爱手机开始,小米汽车语音的特点是与手机、其他终端由由同一套体系支撑,汽车语音需要根据用车场景做适度修改,早期有其他供应商平行推进。

到今年1月,雷军体验过车机语音后认为模型效果不够好,其他供应商没有做出快速整改,绝影用了一个多星期时间根据要求做出了适应用车要求的模型。比如小米要求首次响应的延时必须控制在2秒之内,也就是说,使用者说了一段话,输入一堆文字,车机反馈时,即使是云端的反馈,也需要在一两秒内迅速响应。

这对每家供应商都有挑战,绝影通过各种资源优化和保障措施最终完成得比较好。优化的背后需要一个专注汽车领域的团队,让模型更好地为汽车服务。这次考验后,商汤正式成为小米SU7语音大模型的供应商。

6月25日,吉利控股集团旗下子品牌翼真汽车(LEVC)旗下首款豪华纯电MPV翼真L380上市发布,商汤绝影为翼真 L380定制化打造了“AI闲聊”、“美图壁纸”、“童话绘本”、“AI问诊”等AI大模型座舱产品和功能。

图片

大模型发力自动驾驶之前,已经在智能座舱上多点落地。

多模态大模型能够将语音、文字、图像、手势、视频等各种模态进行高效且深度地融合,提供更加丰富且自然的人机交互体验。

过去模型处理不同模态信息是先把语音等输入转化为文字,文字和图像结合进行分析,输出反馈也是先生成文字,根据文字再生成语音输出,会有大量信息丢失和很高的延迟。多模态大模型是一种端到端的模型,文字、语音、视频等不同模态一同输入,模型统一处理后输出相应模态的信息,相较于过去的方案,多模态融合的体验与技术难度都呈几何倍数的提升。

智能座舱被改变。

图片

为智能座舱带来多大变化

大模型在2023年成为人工智能的最大风口,很快形成百模大战局面。

有公开数据称,截至2024年4月底,国内共推出305个大模型,10亿参数规模以上的大模型数量已超100个,数量可观。

2024年成为大模型真正落地元年。

汽车领域,大模型上车两个最大的应用是自动驾驶和智能座舱多模态交互,后者落地速度更快,问界借助华为旗下盘古大模型、极越利用百度文心一言都实现了车端落地,蔚小理这些新势力车企选择自研,小米、LEVC是与供应商合作的代表。

大模型能为智能座舱带来多大变化?

图片

首先是语音能够实现连续多轮对话,更像人与人的交互。此前的语音系统不支持多轮对话,每次对话都是独立的,缺乏记忆功能,车机无法记住之前的信息。大模型支持多轮对话,能够记住之前的对话内容,并能从大量输入中总结出有用信息,甚至可以处理长达100万token的上下文输入,理解整本书的内容。这是大模型特有的能力。

其次,犹如增加了一位线上助理。大模型能帮助管理日程表,只需简单指示,它能在开车等不便操作的情况下,为车主找到合适的时间安排会议,并在有冲突时协助调整。

大模型能在视频会议结束后生成会议总结,包括会议要点,每位与会者说了什么话、重点是什么、计划和行动是什么,都能总结提炼出来。

最大的变化是,大模型能根据使用者的指令跨APP完成复杂任务。

王晓刚举例:“你现在开车说我要看欧洲杯,能不能给我找一个酒馆,我一边看欧洲杯,一边吃饭,你到小红书上查一查,有没有比较好的馆子。”

如果做任务分解,这件事分几个步骤:首先激活小红书APP,大模型需要理解每个页面是什么内容,每个按钮代表什么操作,每条评论有什么价值。这涉及到的文字大模型、多模态大模型的能力,能够像人一样读懂文字信息、图片信息、视频信息。读懂之后选择符合要求的餐馆。第二个步骤是上美团APP找到这个餐馆订餐。第三个步骤是导航到该餐馆。

以往的语音控制体系是一条指令对应一个执行动作或一个APP,上述举例给出的是一个复杂任务,需要多个动作、调用多个APP分步骤完成,是一系列执行动作的组合,相比以前的人机交互是革命性的,拥有了类似人类的协调资源、解决问题的能力。

图片

大模型还带来一些小彩蛋,比如车机界面可变,每天心情不同、关注点不同,就可以设置不同的界面。比如最近关注欧洲杯,就可以让中控大屏显示欧洲杯主题,有最新战报,还可以随时播放比赛信息。

图片

训练一个模型要上亿投入

上述跨APP完成复杂任务的难点在于让大模型准确理解每个APP页面的信息含义、每个操作按钮的含义。

“多模态的模型可以去自动地分析几百万个图形界面,分析后知道每个图形界面是干什么的。另外还有任务分解,我说了一段话,你要把它分解成一个工作流,我说的是到小红书上看看再定,我并没有清楚地告诉它你第一步干什么,第二步、第三步干什么,它要自己理解这件事,然后把工作流排出来。它本质上带来的就是一个人机交互变革的大模型。”王晓刚说。

功能实现背后是对大模型的海量训练和硬件支撑,并不是所有公司具备这样的条件,王晓刚认为大部分汽车公司自研大模型是不现实或者性价比很低的。

“一个语言模型的训练有几千亿参数,几千张卡,要训练三个月,光这里面投入的成本要几千万甚至上亿。还有数据的清洗、计算的资源,它是一个研发体系。把3000张卡放在一起去训练一个模型,这件事儿本身就很难,因为3000张卡这么多硬件,中间某一个硬件出了问题,整个系统就失效了。要让这个系统能够稳定运行一个月以上,这里面有很多软硬件基础的建设。另外训练大模型的研发团队也很烧钱,经验丰富的团队都是资源和钱堆出来的。”王晓刚说。

图片

硬件方面,商汤拥有4.5万张GPU,总算力在国内仅次于BAT和头条,国内汽车公司拥有的计算卡数量一般在几千张不等。

2021年成立的商汤绝影最初的核心业务是智能座舱,截止2023年底已经与自主、新势力、合资、海外各类型30多家车企合作,覆盖90款车型,累计交付195万辆。

相比OpenAI等通用大模型公司,商汤绝影的优势在于他们有更符合汽车行业要求的大模型解决方案。比如汽车是私密空间,用户非常在意隐私保护,多模态大模型大部分的任务必须在车端完成,需要有云侧、端云结合、端侧等全栈方式灵活部署多模态大模型的能力。

王晓刚7月5日在WAIC上宣布商汤绝影在行业内率先实现了原生多模态大模型的车端部署,相较于动辄就有几秒钟延迟的云上部署方案,绝影车载端侧8B模型首包延迟可低至300毫秒以内,推理速度40 Tokens/秒,并且能够覆盖主流算力平台。

作为大模型落地元年,2024年已经过去一半,智能驾驶的竞争点从开城数量集体转向“全国都能开”,智能座舱的竞争,也将因为大模型的陆续上车,进入新的阶段。


如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/785840.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Apache配置与应用(优化apache)

Apache配置解析(配置优化) Apache链接保持 KeepAlive:决定是否打开连接保持功能,后面接 OFF 表示关闭,接 ON 表示打开 KeepAliveTimeout:表示一次连接多次请求之间的最大间隔时间,即两次请求之间…

Databend 开源周报第 152 期

Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展,遇到更贴近你心意的 Databend。 支持内置 UDFs …

wordpress外贸建站公司案例英文模板

Indirect Trade WP外贸网站模板 WordPress Indirect Trade外贸网站模板,建外贸独立站用wordpress模板,快速搭建十分便捷。 衣物清洁wordpress独立站模板 洗衣粉、洗衣液、衣物柔顺剂、干洗剂、衣领净、洗衣皂等衣物清洁wordpress独立站模板。 家具wordpr…

《无所不能的JavaScript · prototype 原型链》

📢 大家好,我是 【战神刘玉栋】,有10多年的研发经验,致力于前后端技术栈的知识沉淀和传播。 💗 🌻 近期刚转战 CSDN,会严格把控文章质量,绝不滥竽充数,欢迎多多交流。&am…

python集成Bartender实现二维码打印

本文摘录于:https://blog.csdn.net/mynameisJW/article/details/105500773只是做学习备份之用,绝无抄袭之意,有疑惑请联系本人! 这里上传我优化了一下的代码:https://download.csdn.net/download/chengdong1314/89522026 我这里弄…

Web3时代的数字身份认证:安全性与隐私保护探讨

随着区块链技术的发展和普及,数字身份认证正逐步成为Web3时代的关键基础设施。传统的身份认证系统存在着中心化数据存储、数据泄露和身份盗用等风险,而基于区块链的数字身份认证则通过去中心化、加密和分布式存储等特性,重新定义了安全性和隐…

Alpha 3D扫描仪

3D视觉。就这么简单。 用于机器视觉任务的工业3D扫仪 规格表

Nginx理论篇与相关网络协议

Nginx是什么? Nginx是一款由C语言编写的高性能、轻量级的web服务器,一个线程能处理多个请求,支持万级并发。 优势:I/O多路复用。 I/O是什么? I指的是输入(Input),O是指输出(Outp…

springboot事故车辆与违章车辆跟踪系统-计算机毕业设计源码03863

springboot事故车辆与违章车辆跟踪系统 摘 要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代。…

品牌故事的智能叙述者:Kompas.ai如何塑造品牌叙事

在品牌的世界里,故事是连接消费者与品牌灵魂的桥梁。一个引人入胜的品牌故事不仅能够建立品牌身份,还能够在消费者心中建立起深厚的情感联系。Kompas.ai,作为一款利用人工智能技术的品牌叙事工具,正在帮助品牌创造和传播引人入胜的…

WMS海外仓系统应用:如何改善海外仓的12个核心业务流程

现代化跨境电商的发展依赖海外仓的高效运转,从货物入仓到订单拣货再到最后的货物出库,全部流程都需要海外仓可以顺畅应对。 作为海外仓,则需要借助诸如WMS海外仓系统这样的智能化管理方式,才能适应日益复杂的客户需求。今天我们就…

案列:Nginx+Tomcat负载均衡、动静分离群集

一、案列:部署Tomcat(在192.168.10.102和192.168.10.103) 1.关闭防火墙 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 2.安装java环境 [rootlocalhost ~]# yum -y install java [rootlocalhost ~]# jav…

724.力扣每日一题7/8 Java

博客主页:音符犹如代码系列专栏:算法练习关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 目录 思路 解题方法 时间复杂度 空间复杂度 Code 思路 主要基于数组的…

Git 详解(原理、使用)

1. 什么是 Git Git 是目前最主流的一个版本控制器,并且是分布式版本控制系统,可以控制电脑上所有格式的文档 版本控制器:记录每次修改以及版本迭代的管理系统 对于文本文件,可以记录每次对这个文件的内容进行了怎样的修改 对于二…

视频汇聚平台EasyCVR设备录像回看请求播放时间和实际时间对不上,是何原因?

安防监控EasyCVR视频汇聚平台可提供多协议(RTSP/RTMP/国标GB28181/GAT1400/海康Ehome/大华/海康/宇视等SDK)的设备接入、音视频采集、视频转码、处理、分发等服务,系统具备实时监控、云端录像、回看、告警、平台级联以及多视频流格式分发等视…

【Python】已解决:(最新版selenium框架元素定位报错)NameError: name ‘By’ is not defined

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决:(最新版selenium框架元素定位报错)NameError: name ‘By’ is not defined 一、分析问题背景 在使用Selenium进行Web自动化测试或爬虫开…

使用MySQLInstaller配置MySQL

操作步骤 1.配置High Availability 默认选项Standalone MySQL Server classic MySQL Replication 2.配置Type and Networking ◆端口默认启用TCP/P网络 ◆端口默认为3306 3.配置Account and Roles 设置root账户的密码、添加其他管理员 4.配置Windows Service ◆配置MySQL Serv…

Redis连接Resp图形化工具和springboot

Redis连接Resp图形化工具和springboot 1.redis配置1.1 备份、修改conf文件1.2 Redis的其它常见配置:1.3 启动Redis:1.4 停止服务:1.5 开机自启: 2. resp的安装、配置和连接:2.1 GitHub上下载2.2 开始连接redis ![在这里…

服务器数据恢复—raid5阵列热备盘没有激活导致阵列崩溃的数据恢复案例

服务器存储数据恢复环境: 一台EMC存储中有一组raid5磁盘阵列,划分1个lun供小型机使用,上层采用ZFS文件系统。 服务器存储故障: 一台有一组raid5磁盘阵列的存储在运行过程中突然崩溃。管理员检查发现存储中的raid5阵列有两块硬盘离…

【Linux进阶】vim的用法

1.什么是vi/vim? 简单来说,vi是老式的文本编辑器,不过功能已经很齐全了,但是还是有可以进步的地方。vim则可以说是程序开发者的一项很好用的工具,就连 vim的官方网站( http://www.vim.org)自己也说vim是一…