大模型应用新领域:探寻终端侧 AI 竞争核心|智于终端

2024年过去2/3,大模型领域的一个共识开始愈加清晰:

AI技术的真正价值在于其普惠性。没有应用,基础模型将无法发挥其价值

于是乎,回顾这大半年,从互联网大厂到手机厂商,各路人马都在探索AI时代Killer APP的道路上狂奔。这股风潮,也开始在顶级学术会议中显露踪迹。
在这里插入图片描述

其中被行业、学术界都投以关注的一个核心问题就是:

在大模型“力大砖飞”的背景之下,AIGC应用要如何在手机等算力有限的终端设备上更丝滑地落地呢?

img

Midjourney生成

这段时间以来,ICML(国际机器学习大会)、CVPR(IEEE国际计算机视觉与模式识别会议)等顶会上的最新技术分享和入选论文,正在揭开更多细节。

是时候总结一下了。

量子位

,赞476

AI应用背后,大家都在聚焦哪些研究?

先来看看,AI应用从云端迈向终端,现在进展到何种程度了。

目前,在大模型/AIGC应用方面,众多安卓手机厂商都与高通保持着深度合作。

在CVPR 2024等顶会上,高通的技术Demo,吸引了不少眼球。

比如,在安卓手机上,实现多模态大模型(LLaVA)的本地部署:

图片

Qualcomm Research发布于YouTube

这是一个70亿参数级别的多模态大模型,支持多种类型的数据输入,包括文本和图像。也支持围绕图像的多轮对话。

就像这样,丢给它一张小狗的照片,它不仅能描述照片信息,还能接着和你聊狗狗适不适合家养之类的话题。

图片

量子位在巴塞罗那MWC高通展台拍摄的官方演示Demo

高通还展示了在安卓手机上运行LoRA的实例。

图片

Qualcomm Research发布于YouTube

以及音频驱动的3D数字人版AI助手——同样能在断网的情况下本地运行。

,时长01:10

Qualcomm Research发布于YouTube

Demo原型既出,加之手机厂商们的魔改优化,对于普通用户而言,意味着其中展现的新玩法新可能,在咱们自个儿的终端设备上已经指日可待。

但在顶会上,更加受到关注的是,demo之外,高通的一系列最新论文们,还详细地揭开了应用背后需要重点布局的关键技术。

量化

其中之一,就是量化。

在手机等终端设备上部署大模型/AIGC应用,要解决的一大重点是如何实现高效能的推理

而量化是提高计算性能和内存效率最有效的方法之一。并且高通认为,使用低位数整型精度对高能效推理至关重要。

高通的多项研究工作发现,对于生成式AI来说,由于基于Transformer的大语言模型受到内存的限制,在量化到8位(INT8)或4位(INT4)权重后往往能够获得大幅提升的效率优势。

其中,4位权重量化不仅对大语言模型可行,在训练后量化(PTQ)中同样可能,并能实现最优表现。这一效率提升已经超过了浮点模型。

具体来说,高通的研究表明,借助量化感知训练(QAT)等量化研究,许多生成式AI模型可以量化至INT4模型。

在不影响准确性和性能表现的情况下,INT4模型能节省更多功耗,与INT8相比实现90%的性能提升和60%的能效提升。

图片

今年,高通还提出了一种名为LR-QAT(低秩量化感知训练)的算法,能使大语言模型在计算和内存使用上更高效。

LR-QAT受LoRA启发,采用了低秩重参数化的方法,引入了低秩辅助权重,并将其放置在整数域中,在不损失精度的前提下实现了高效推理。

在Llama 2/3以及Mistral系列模型上的实验结果显示,在内存使用远低于全模型QAT的情况下,LR-QAT达到了相同的性能。

图片

另外,高通还重点布局了矢量量化(VQ)技术,与传统量化方法不同,VQ考虑了参数的联合分布,能够实现更高效的压缩和更少的信息丢失。

图片

编译

在AI模型被部署到硬件架构的过程中,编译器是保障其以最高性能和最低功耗高效运行的关键。

编译包括计算图的切分、映射、排序和调度等步骤。

高通在传统编译器技术、多面体AI编辑器和编辑器组合优化AI方面都积累了不少技术成果。

比如,高通AI引擎Direct框架基于高通Hexagon NPU的硬件架构和内存层级进行运算排序,在提高性能的同时,可以最大程度减少内存溢出。

硬件加速

终端侧的AI加速,离不开硬件的支持。

在硬件方面,高通AI引擎采用异构计算架构,包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。

其中,Hexagon NPU在今天已经成为高通AI引擎中的关键处理器。

图片

以第三代骁龙8移动平台为例,Hexagon NPU在性能表现上,比前代产品快98%,同时功耗降低了40%。

架构方面,Hexagon NPU升级了全新的微架构。与前代产品相比,更快的矢量加速器时钟速度、更强的推理技术和对更多更快的Transformer网络的支持等等,全面提升了Hexagon NPU对生成式AI的响应能力,使得手机上的大模型“秒答”用户提问成为可能。

Hexagon NPU之外,第三代骁龙8在高通传感器中枢上也下了更多功夫:增加下一代微型NPU,AI性能提高3.5倍,内存增加30%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

事实上,作为大模型/AIGC应用向终端侧迁移的潮流中最受关注的技术代表之一,以上重点之外,高通的AI研究布局早已延伸到更广泛的领域之中。

以CVPR 2024入选论文为例,在生成式AI方面,高通提出了提高扩散模型效率的方法Clockwork Diffusion,在提高Stable Diffusion v1.5感知得分的同时,能使算力消耗最高降低32%,使得SD模型更适用于低功耗端侧设备。

并且不止于手机,针对XR和自动驾驶领域的实际需求,高通还研究了高效多视图视频压缩方法(LLSS)等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在当前的热点研究领域,比如AI视频生成方面,高通也有新动作:

正在开发面向终端侧AI的高效视频架构。例如,对视频到视频的生成式AI技术FAIRY进行优化。在FAIRY第一阶段,从锚定帧提取状态。在第二阶段,跨剩余帧编辑视频。优化示例包括:跨帧优化、高效instructPix2Pix和图像/文本引导调节。

底层技术驱动AI创新

大模型应用是当下的大势所趋。而当应用发展的程度愈加深入,一个关键问题也愈加明朗:

应用创新的演进速度,取决于技术基座是否扎实牢固。

这里的技术基座,指的不仅是基础模型本身,也包括从模型量化压缩到部署的全栈AI优化。

可以这样理解,如果说基础模型决定了大模型应用效果的上限,那么一系列AI优化技术,就决定了终端侧大模型应用体验的下限。

作为普通消费者,值得期待的是,像高通这样的技术厂商,不仅正在理论研究方面快马加鞭,其为应用、神经网络模型、算法、软件和硬件的全栈AI研究和优化,也已加速在实践中部署。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以高通AI软件栈为例。这是一套容纳了大量AI技术的工具包,全面支持各种主流AI框架、不同操作系统和各类编程语言,能提升各种AI软件在智能终端上的兼容性。

其中还包含高通AI Studio,相当于将高通所有AI工具集成到了一起,包括AI模型增效工具包、模型分析器和神经网络架构搜索(NAS)等。

更为关键的是,基于高通AI软件栈,只需一次开发,开发者就能跨不同设备随时随地部署相应的AI模型。

就是说,高通AI软件栈像是一个“转换器”,能够解决大模型在种类繁多的智能终端中落地所面临的一大难题——跨设备迁移。

这样一来,大模型应用不仅能从云端走向手机端,还能被更快速地塞进汽车、XR、PC和物联网设备中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

站在现在的时间节点,人人都在期待改变世界的技术潮流翻腾出更汹涌的巨浪。

而站立潮头的弄潮儿们正在再次验证技术史中一次次被探明的事实:引领技术之先的人和组织,无不具备重视基础技术的“发明家文化”。

不止是追赶最新的技术趋势,更要提前布局,抢先攻克基本方案。

高通在《让AI触手可及》白皮书中同样提到了这一点:

高通深耕AI研发超过15年,始终致力于让感知、推理和行为等核心能力在终端上无处不在。

这些AI研究和在此之上产出的论文,影响的不仅是高通的技术布局,也正在影响整个行业的AI发展。

大模型时代,“发明家文化”仍在延续。

也正是这样的文化,持续促进着新技术的普及化,促进着市场的竞争和繁荣,带动起更多的行业创新和发展。

你觉得呢?

最后如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖

在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉如何学习AI大模型?👈

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
在这里插入图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
在这里插入图片描述

四、AI大模型商业化落地方案

在这里插入图片描述

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/887903.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【超级详细解释】力扣每日一题 134.加油站 48. 旋转图像

134.加油站 力扣 这是一个很好的问题。这个思路其实基于一种贪心策略。我们从整个路径的油量变化来理解它,结合一个直观的“最低点法则”,来确保找到正确的起点。 问题的核心:油量差值的累积 对于每个加油站,我们有两个数组&…

1、如何查看电脑已经连接上的wifi的密码?

在电脑桌面右下角的如下位置:双击打开查看当前连接上的wifi的名字:ZTE-kfdGYX-5G 按一下键盘上的win R 键, 输入【cmd】 然后,按一下【回车】。 输入netsh wlan show profile ”wifi名称” keyclear : 输入完成后,按一下回车&…

51单片机的水质检测系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块温度传感器ph传感器浑浊度传感器蓝牙继电器LED、按键和蜂鸣器等模块构成。适用于水质监测系统,含检测和调整水温、浑浊度、ph等相似项目。 可实现功能: 1、LCD1602实时显示水温、水体ph和浑浊度 2、温…

Studying-多线程学习Part3 - condition_variable与其使用场景、C++11实现跨平台线程池

来源:多线程学习 目录 condition_variable与其使用场景 生产者与消费者模型 C11实现跨平台线程池 condition_variable与其使用场景 生产者与消费者模型 生产者-消费者模式是一种经典的多线程设计模式,用于解决多个线程之间的数据共享和协作问题。…

基于PHP的校园二手书交易管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的校园二手书交易管理系统 一 介绍 此二手书交易管理系统基于原生PHP开发,数据库mysql,前端bootstrap。系统角色分为用户和管理员。 技术栈:phpmysqlbootstrapphpstudyvscode 二 功能 用户 1 注…

k8s中pod的管理

一、资源管理 1.概述 说到k8s中的pod,即荚的意思,就不得不先提到k8s中的资源管理,k8s中可以用以下命令查看我们的资源: kubectl api-resources 比如我们现在需要使用k8s开启一个东西,那么k8s通过apiserver去对比etc…

《从零开始大模型开发与微调》真的把大模型说透了!零基础入门一定要看!

2022年底,ChatGPT震撼上线,大语言模型技术迅速“席卷”了整个社会,人工智能技术因此迎来了一次重要进展。与大语言模型相关的研发岗薪资更是水涨船高,基本都是5w月薪起。很多程序员也想跟上ChatGPT脚步,今天给大家带来…

51单片机系列-串口(UART)通信技术

🌈个人主页: 羽晨同学 💫个人格言:“成为自己未来的主人~” 并行通信和串行通信 并行方式 并行方式:数据的各位用多条数据线同时发送或者同时接收 并行通信特点:传送速度快,但因需要多根传输线&#xf…

免杀对抗—GOC#反VT沙盒资源分离混淆加密

前言 今天的主要内容是反VT沙盒,我们都知道生成的后门会被杀软上穿到沙盒中去运行,去逆向。如此一来我们的后门就很容易被查杀掉,但如果我们对后门进行一些操作,让它在被逆向的时候,反编译出一堆乱码,或者…

【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述

【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述 论文信息: 用于医疗领域摘要任务的大型语言模型评估:一篇叙述性综述, 文章是由 Emma Croxford , Yanjun Gao 博士 , Nicholas Pellegrino , Karen K. Wong 等人近期合作…

STM32PWM应用

目录 一、输出比较(OC) 二、PWM: 1、简介 2、基本结构 3、参数计算 三、PWM驱动LED呼吸灯 1、代码 四、PWM驱动Sg90舵机 1、工作原理 2、完整代码 五、PWM驱动直流电机 1、TB6612芯片模块 2、完整代码: 一、输出比较(OC) OC(Outp…

智能医疗:Spring Boot医院管理系统开发

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适…

【Python】PDFMiner.six:高效处理PDF文档的Python工具

PDF是一种广泛使用的文件格式,特别适用于呈现固定布局的文档。然而,提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们,其中,PDFMiner.six 是一个功能强大、专门用于PDF文档解析的库。 ⭕️宇宙起点 &a…

cnn突破四(生成卷积核与固定核对比)

cnn突破三中生成四个卷积核,训练6万次,91分,再训练6万次,95分,不是很满意,但又找不到问题点,所以就想了个办法,使用三个固定核,加上三层bpnet神经网络,看看效…

王道-数据结构

1 设数组data[m]作为循环队列的存储空间,front为队头指针,rear为队尾指针,则执行出队操作后其头指针front值为____ 答案:D 解析:队列的头指针指向队首元素的实际位置,因此出队操作后,头指针需向上移动一个元素的位置。循环队列的容量为m,所以头指针front加1以后,需…

【d60】【Java】【力扣】509. 斐波那契数

思路 要做的问题:求F(n), F(n)就等于F(n-1)F(n-2),要把这个F(n-1)F(n-2)当作常量,已经得到的值, 结束条件:如果是第1 第2 个数字的时候,没有n-1和n-2,所以…

闯关训练三:Git 基础知识

任务1: 破冰活动:自我介绍 点击Fork目标项目,创建一个新的Fork 获取仓库链接 在连接好开发机的vscode终端中逐行执行以下代码: git clone https://github.com/KelvinIII/Tutorial.git # 修改为自己frok的仓库 cd Tutorial/ git branch -a g…

4. 将pycharm本地项目同步到(Linux)服务器上——深度学习·科研实践·从0到1

目录 前序工作 1. 服务器项目名和本地一致 2. pycharm连接服务器 3. 本地项目对应到服务器项目 4. 简单测试一下同步效果 同步成功 前序工作 在同步到服务器之前,得确保已经完成以下几个前置步骤: 1. 租一个云服务器,可参考&#xff1a…

18734 拓扑排序

### 思路 1. **建模问题**:将课程和依赖关系建模为有向图,其中课程是节点,依赖关系是有向边。 2. **选择算法**:使用拓扑排序算法来确定课程的学习顺序。由于需要确保输出唯一性,同等条件下编号小的课程排在前面&…

WDG看门狗在stm32中的应用

一,WDG看门狗的介绍 看门狗可以监控程序的运行状态,当程序因为设计漏洞、硬件故障、电磁干扰等原因,出现卡死或跑飞现象时,看门狗能及时复位程序,避免程序陷入长时间的罢工状态,保证系统的可靠性和安全性看…