【书生·浦语大模型实战营05】《(5)LMDeploy 大模型量化部署实践》学习笔记

【书生·浦语大模型实战营05】《(5)LMDeploy 大模型量化部署实践》学习笔记

article2025/1/11 10:09:40/文章来源:https://blog.csdn.net/songyuc/article/details/135738212

《(5)LMDeploy 大模型量化部署实践》

课程文档：《LMDeploy 的量化和部署》

1、大模型部署背景

在这里插入图片描述

1.1 模型部署

定义

将训练好的模型在特定软硬件环境中启动的过程，使模型能够接收输入并返回预测结果
为了满足性能和效率的需求，常常需要对模型进行优化，例如模型压缩和硬件加速

产品形态

云端、边缘计算端、移动端

1.2 大模型特点

内存开销巨大

庞大的参数量。7B模型仅权重就需要14+G显存
采用自回归生成 token，需要缓存Attention的k/v，带来巨大的内存开销

在这里插入图片描述

1.3 大模型部署挑战

设备

如何应对巨大的存储问题？低存储设备（消费级显卡、手机等）如何部署？

推理

如何加速token的生成速度
如何解决动态shape，让推理可以不间断
如何有效管理和利用内存

2、LMDeploy简介

在这里插入图片描述 LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
项目地址：https://github.com/InternLM/lmdeploy

1.1 接口

python & gRPC & RESTful

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/339056.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

web架构师编辑器内容-完成属性设置的优化

web架构师编辑器内容-完成属性设置的优化

对于业务组件来说，其属性是有很多的，如果把所有属性都平铺在页面上，就会非常长，而且想要更改其中的某些属性，可能需要向下滚动很久才能找到，对于UI的交互不是很友好，需要对属性的不同特性进行分…

阅读更多...

OpenCompass 大模型评测

OpenCompass 大模型评测

OpenCompass 大模型评测关于测评的三个问题为什么需要测评？我们需要评测什么？怎么测试大预言模型？ 主流大模型评测框架OpenCompass能力框架OpenCompass评测流水线设计随着人工智能技术的快速发展， 大规模预训练自然语言模型成为…

阅读更多...

线程同步--生产者消费者模型--单例模式线程池

线程同步--生产者消费者模型--单例模式线程池

文章目录一.条件变量pthread线程库提供的条件变量操作二.生产者消费者模型生产者消费者模型的高效性基于环形队列实现生产者消费者模型中的数据容器基于生产者消费者模型实现单例线程池一.条件变量条件变量是线程间共享的全局变量,线程间可以通过条件变量进行同步控制条件…

阅读更多...

Springboot JSP项目如何以war、jar方式运行

Springboot JSP项目如何以war、jar方式运行

文章目录一，序二，样例代码1，代码结构2，完整代码备份三，准备工作1. pom.xml 引入组件2. application.yml 指定jsp配置四，war方式运行1. 修改pom.xml文件2. mvn执行打包五，jar方式运行1. 修改…

阅读更多...

表白墙网站PHP源码，支持封装成APP

表白墙网站PHP源码，支持封装成APP

源码介绍 PHP表白墙网站源码，适用于校园内或校区间使用，同时支持封装成APP。告别使用QQ空间的表白墙。简单安装，只需PHP版本5.6以上即可。通过上传程序进行安装，并设置账号密码，登录后台后切换模板，适配…

阅读更多...

HCIA——21C/S、P2P、peer的选择

HCIA——21C/S、P2P、peer的选择

学习目标： 计算机网络 1.掌握计算机网络的基本概念、基本原理和基本方法。 2.掌握计算机网络的体系结构和典型网络协议，了解典型网络设备的组成和特点，理解典型网络设备的工作原理。 3.能够运用计算机网络的基本概念、基本原理和基本方法进行…

阅读更多...

Java面试题50道

Java面试题50道

文章目录 1.谈谈你对Spring的理解2.Spring的常用注解有哪些3.Spring中的bean线程安全吗4.Spring中的设计模式有哪些5.Spring事务传播行为有几种6.Spring是怎么解决循环依赖的7.SpringBoot自动配置原理8.SpringBoot配置文件类型以及加载顺序9.SpringCloud的常用组件有哪些10.说一…

阅读更多...

Debian11下编译ADAravis和Motor模块的一条龙过程

Debian11下编译ADAravis和Motor模块的一条龙过程

Debian11编译EPICS ADAravis记录一年前整理的上面文，这几天重新走了一遍，有些地方会碰到问题，需要补充些环节，motor模块以前和areaDetector一条龙编译时，总是有问题，当时就没尝试了，这几天尝试…

阅读更多...

C#串口通讯控制4路继电上位机

C#串口通讯控制4路继电上位机

C#串口通讯控制4路继电上位机界面如下源码如下 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text;//引入空间 using System.Windows.Forms; using System.I…

阅读更多...

通过Stable Diffusion生成虚假的遥感影像

通过Stable Diffusion生成虚假的遥感影像

简介这两天玩了一下stable diffusion，是真的好玩！ 然后我在想遥感有没有相关的生成模型，找了一下，还真找到了（https://github.com/xiaoyuan1996/Stable-Diffusion-for-Remote-Sensing-Image-Generation/tree/main&a…

阅读更多...

spark 入门教程

spark 入门教程

一、安装scala环境官网下载地址 Download | The Scala Programming Language,本次使用版本为sacla2.11.12,将压缩包解压至指定目录，配置好环境变量，控制台验证是否安环境是否可用： 二、添加pom依赖创建一个maven项目 1、添加scala的sdk依…

阅读更多...

详细分析Java中Service报NullPointerException的相关知识（实战Bug）

详细分析Java中Service报NullPointerException的相关知识（实战Bug）

目录前言1. 问题所示2. 基本知识3. 原理分析前言在Java中，NullPointerException是一种常见的运行时异常，通常发生在尝试访问或操作一个空对象引用（null reference）时 1. 问题所示在操作代码的时候，浏览器报服务…

阅读更多...

Mysql - 定点型(DECIMAL)的使用详解及练习

Mysql - 定点型(DECIMAL)的使用详解及练习

目录 🐶1. 前言： 🐶2. DECIMAL类型简介 🐶3. Decimal使用实战 🥪#结论1：小数位不足会自动补0 🥪#结论2：小数位超出会截断并按四舍五入处理。 🥪#结论3&#xff1…

阅读更多...

数据结构实验7：查找的应用

数据结构实验7：查找的应用

目录一、实验目的二、实验原理 1. 顺序查找 2. 折半查找 3. 二叉树查找三、实验内容实验一任务代码截图实验2 任务代码截图一、实验目的 1.掌握查找的基本概念； 2.掌握并实现以下查找算法：顺序查找、折半查找、二叉树查找。 …

阅读更多...

2.RHCSA启动配置

2.RHCSA启动配置

rht-clearcourse 0 #重置练习环境 rht-setcourse rh134 #切换CSA练习环境 cat /etc/rht #查看当前环境 virt-manager #打开KVM控制台 rht-vmctl start classroom #必做，start all不会包含classroom，需…

阅读更多...

【Linux】Ubuntu的gnome切换KDE Plasma

【Linux】Ubuntu的gnome切换KDE Plasma

文章目录安装KDE Plasma桌面环境添加软件源并更新apt安装kubuntu-desktop（作者没有成功）aptitude安装kubuntu-desktop多次aptitude install（特别重要特别重要）其他kde软件包卸载gnome桌面 Ubuntu自带的桌面环境是gnome&#xff…

阅读更多...

PSoc62™开发板之rtc时间获取

PSoc62™开发板之rtc时间获取

实验目的 1.使用PSoc62™芯片读取内部rtc时间 2.OLED屏幕显示当前时间戳实验准备 PSoc62™开发板SSD1306 OLED模块公母头杜邦线芯片资源 PSoC 6系列MCU时钟系统由以下几部分组成，PSoc62™开发板没有接外部时钟源，所以只能从IMO、ILO、PILO里边配…

阅读更多...

EtherNet/IP开发：C++搭建基础模块，EtherNet/IP源代码

EtherNet/IP开发：C++搭建基础模块，EtherNet/IP源代码

这里是CIP资料的协议层级图，讲解协议构造。 ODVA（www.ODVA.org）成立于1995年，是一个全球性协会，其成员包括世界领先的自动化公司。结合其成员的支持，ODVA的使命是在工业自动化中推进开放、可互操作的信息和…

阅读更多...

SQL注入实战：Update注入

SQL注入实战：Update注入

一：Update注入原理有的程序员在写源代码的时候，只是对查询的sql语句的用户输入内容进行了过滤，忽略了update 类型sql语句的用户输入的内容的过滤二、mysql的Update语句复习 update语句可用来修改表中的数据，简单来说基本的使…

阅读更多...

算法每日一题：分割数组的最大值 | 动归 | 分割数组 | 贪心+二分

算法每日一题：分割数组的最大值 | 动归 | 分割数组 | 贪心+二分

Hello，大家好，我是星恒呜呜呜，今天给大家带来的又是一道经典的动归难题。题目：leetcode 410给定一个非负整数数组 nums 和一个整数 k ，你需要将这个数组分成 k_ 个非空的连续子数组。设计一个算法使得这 k _个子数组…

阅读更多...

最新文章