InternLM2-lesson5

InternLM2-lesson5

article2024/12/26 20:33:46/文章来源:https://blog.csdn.net/qq_41605733/article/details/138200710

目录

大模型部署
- 挑战
- 常用大模型部署方式
- - 模型剪枝(Pruning)
  - 知识蒸馏
  - 量化
- LMDeploy
- - 核心功能
  - 性能表现
  - 支持部署的模型
作业
- 配置 LMDeploy 运行环境
- 以命令行方式与 InternLM2-Chat-1.8B 模型对话

大模型部署

大模型部署就是将大模型在特定的环境种运行！可以部署到服务器端：CPU\单GPU\TPU\NPU;还可以部署到移动端：机器人\手机等

挑战

计算量巨大
20B模型每生成一个token，大约需要进行406亿次的浮点计算；
单张NVIDIA A100，理论上进行FP16运算性能为每秒77.97TFLOPs，约77万亿。
所以如果生成更多的token，如果模型参数量更大一点的话，对显卡的性能要求会更高！

下图是InternLM2大模型向前推理的计算量估算：
显存开销巨大
20B模型加载参数至少需要40G显存，175B模型（GPT-3）需要350G+显存；
大模型在推理过程中还会产生缓存，以FP16为例，在batch-size为16，输入512tokens，输出32tokens的情况下，20B模型就会产生10.3GB的缓存；
目前，单张NVIDIA RTX4060显卡的显存为8GB，单张NVIDIA A100的显存为80GB

下图是InternLM2大模型前向推理的缓存占用空间：
访存瓶颈
由于硬件计算速度远快于显存带宽，会存在严重的访存性能瓶颈；
以RTX 4090推理175B大模型为例，BS为1时计算量为6.83TFLOPs，远低于82.58TFLOPs的FP16计算能力，但访存量为32.62TB(这里的B代表字节),是显存带宽每秒处理能力的30倍
动态请求
请求量不确定
请求时间不确定
Token逐个生成，生成数量不确定

常用大模型部署方式

模型剪枝(Pruning)

剪枝就是移除模型种不必要的组件，如参数，使模型更加高效。

非结构化剪枝
移除个别参数，不考虑整体模型结构
结构化剪枝
移除连接或分层结构，保持整体网络结构。

知识蒸馏

核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型，在不改变学生模型结构的情况下提高性能。

上下文学习(ICL)
思维链(CoT)
指令跟随(IF)

在这里插入图片描述

量化

浮点数转换为整数或其他离散形式，减轻模型的存储和计算负担

量化感知训练(QAT)
量化感知微调(QAF)
训练后量化(PTQ)

LMDeploy

LMDeploy是涵盖了LLM任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理

核心功能

在这里插入图片描述

性能表现

在这里插入图片描述

支持部署的模型

在这里插入图片描述

作业

配置 LMDeploy 运行环境

在这里插入图片描述

以命令行方式与 InternLM2-Chat-1.8B 模型对话

启动模型
在这里插入图片描述
开启对话

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/574163.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

day13 ts后端持久层框架（java转ts全栈/3R教室）

day13 ts后端持久层框架（java转ts全栈/3R教室）

简介：如果说TS全栈后端开发最重要的两个框架，除了nestjs就是持久层框架了，这里主要看下Typeorm（java中常用的就是mybatis，springdatajpa，hebernite了） 先回顾下ORM的概念：ORM就是建…

阅读更多...

好用的在线客服系统PHP源码(开源代码+终身使用+安装教程) 制作第一步

好用的在线客服系统PHP源码(开源代码+终身使用+安装教程) 制作第一步

创建一个在线客服系统是一个涉及多个步骤的过程，包括前端界面设计、后端逻辑处理、数据库设计、用户认证、实时通信等多个方面。以下是使用PHP制作在线客服系统的第一步：需求分析和系统设计。演示：ym.fzapp.top 第一步：需求分析确…

阅读更多...

Linux：进程创建进程终止

Linux：进程创建进程终止

Linux：进程创建 & 进程终止进程创建fork写时拷贝进程终止退出码strerrorerrno 异常信号exit 进程创建 fork fork函数可以用于在程序内部创建子进程，其包含在头文件<unistd.h>中，直接调用fork()就可以创建子进程了。示例代码&…

阅读更多...

暴雨亮相CCBN2024 助力广电行业数智化转型

暴雨亮相CCBN2024 助力广电行业数智化转型

4月23日，第三十届中国国际广播电视信息网络展览会（简称CCBN2024）在北京开展，本次展览会由国家广播电视总局指导、广播电视科学研究院主办，作为国内广电视听领域首个综合性、专业化、引领性、国际化科技产业盛会&#x…

阅读更多...

【树莓派】如何用电脑连接树莓派的远程桌面，灰屏解决

【树莓派】如何用电脑连接树莓派的远程桌面，灰屏解决

要使用VNC桌面连接到树莓派，你需要确保已经安装并启动了VNC服务器。以下是连接到树莓派的步骤： 在树莓派上启动VNC服务器： 打开终端或SSH连接到你的树莓派。输入以下命令以安装RealVNC的VNC服务器：sudo apt update sudo apt insta…

阅读更多...

第十讲：C语言指针（4）

第十讲：C语言指针（4）

目录 1、回调函数是什么？ 2、qsort使⽤举例 2.1、使⽤qsort函数排序整型数据 2.2、使⽤qsort排序结构数据 3、qsort函数的模拟实现 4、sizeof和strlen的对⽐ 4.1、sizeof 4.2、strlen 4.3、sizeof 和 strlen的对⽐ 5、数组和指针笔试题解析 5.1、⼀维数组…

阅读更多...

java-反射

java-反射

简介获取class对象的API // 1. 通过类名.class Class<Student> clazz Student.class; System.out.println(clazz.getName());// 2. 通过Class.forName()方法 Class<?> clazz2 null; try {clazz2 Class.forName("com.reflect.Student");System.out.p…

阅读更多...

B2B企业如何做好谷歌Google广告推广营销布局？

B2B企业如何做好谷歌Google广告推广营销布局？

当今全球化的商业环境中，B2B企业要想在激烈的市场竞争中脱颖而出，拓展海外市场成为了必经之路。而谷歌Google广告，作为全球最大的在线广告平台，无疑是企业触达全球潜在客户的黄金钥匙。云衔科技通过专业服务助力企业轻松开户与高效…

阅读更多...

【ai相关】人工智能的概念

【ai相关】人工智能的概念

一、人工智能的定义人工智能，简称AI，是指由机器或计算机系统所展现出的类似于人类智能的行为和能力。其核心在于使机器能够像人类一样进行思考和行动，而这些思考和行动都是基于理性的决策和判断。什么是机器学习？ 机器学习的核…

阅读更多...

【蓝桥杯省赛真题40】python摘苹果中小学青少年组蓝桥杯比赛算法思维python编程省赛真题解析

【蓝桥杯省赛真题40】python摘苹果中小学青少年组蓝桥杯比赛算法思维python编程省赛真题解析

目录 python摘苹果一、题目要求 1、编程实现 2、输入输出二、算法分析三、程序编写四、程序说明五、运行结果六、考点分析七、推荐资料 1、蓝桥杯比赛 2、考级资料 3、其它资料 python摘苹果第十三届蓝桥杯青少年组python编程省赛真题一、题目要求 &…

阅读更多...

二维码如何分享照片？3步在线生成相册二维码

二维码如何分享照片？3步在线生成相册二维码

拍摄的照片怎样快速分享给其他人呢？传统的图片传输方式多通过微信、QQ、空间、微博等方式来实现分享，当需要分享给指定人员时或者需要分享的图片数量较多时，这些方式传递起来并不是特别的方便。想要实现大量图片的分享，选择生成相…

阅读更多...

docker教程(详细)

docker教程(详细)

0 背景软件开发最大的麻烦事之一，就是环境配置。环境配置如此麻烦，换一台机器，就要重来一次，旷日费时。很多人想到，能不能从根本上解决问题，软件可以带环境安装？也就是说，安装的时…

阅读更多...

【JAVA进阶篇教学】第五篇：Java多线程编程

【JAVA进阶篇教学】第五篇：Java多线程编程

博主打算从0-1讲解下java进阶篇教学，今天教学第五篇：Java多线程编程。在Java编程中，使用多线程可以提高程序的并发性能，但是直接创建和管理线程可能会导致资源浪费和性能下降。Java提供了线程池来管理线程的生命周期和执行任务…

阅读更多...

Activiti——将绘制的流程图存入act数据库并进行流程推进与状态流转

Activiti——将绘制的流程图存入act数据库并进行流程推进与状态流转

文章目录前言流程图入库操作 RepositoryService项目结构数据库连接配置文件入库Java测试代码zip 方式进行流程的批量部署流程启动 RuntimeService待处理任务查看 TaskService流程状态的扭转查询流程定义信息 RepositoryService查询正在执行的流程实例 RuntimeService已部署流…

阅读更多...

Autosar AP的基本构成

Autosar AP的基本构成

1. 引言 Autosar AP的体系结构是怎样的呢？从整体的宏观的方向上划分，分为 1）应用层，其中放置各种应用组件SWCs。2）运行时基本功能软件族群，提供基本AutoSar基本软件中间件，比如经典的通信服务…

阅读更多...

玩转nginx的配置文件3

玩转nginx的配置文件3

1. limit_req_zone配置限流 limit_req_zone $binary_remote_addr zonemylimit:10m rate10r/s;upstream myweb {server 10.0.105.196:80 weight1 max_fails1 fail_timeout1;}server {listen 80;server_name localhost;location /login {limit_req zonemylimit;proxy_pass http:…

阅读更多...

嵌入式UBoot如何跳转Kernel—uboot与linux交界分析

嵌入式UBoot如何跳转Kernel—uboot与linux交界分析

不知道你是否有这种感觉，就是学习了Uboot，学习了kernel，学习了安卓。但是有时候总感觉是各自孤立的，将三者连续不起来？ • 不知道你是否在做启动方案的时候，在宏观上知道了整个启动链路流程，但是却在汪洋的代码中迷了路？那么这篇文章必定对你有点用处。如果没有，那请…

阅读更多...

恭喜！喜提美国匹兹堡大学儿童医院访问学者邀请函

恭喜！喜提美国匹兹堡大学儿童医院访问学者邀请函

➡️【院校简介】匹兹堡UPMC儿童医院该院是匹兹堡大学医学中心的一部分，也是大匹兹堡唯一一家专门护理26岁以下婴儿，儿童，青少年和年轻人的医院。该医院隶属于匹兹堡大学医学院，设有一个获得州级认证的一级儿科创伤中心&#xf…

阅读更多...

Linux的自动化脚本：使用crul命令的从某个网站获取数据（从url获取数据），并将其写入一个文件中

Linux的自动化脚本：使用crul命令的从某个网站获取数据（从url获取数据），并将其写入一个文件中

目录一、要求二、思路三、shell脚本实现演练 （一）脚本实现 （二）脚本代码说明 （三）脚本执行 （四）数据内容一、要求 Linux的一个进程需要获取一个网站上的最新数据&#xf…

阅读更多...

JavaScript：将input标签中的内容打印到控制台

JavaScript：将input标签中的内容打印到控制台

使用浏览器进行开发时，按F12可以查看网页信息。目标：实现将input标签中的内容，打印到控制台（console） HTML页面的关键代码实现： 登录功能： HTML代码： <div class"form-…

阅读更多...

最新文章