大模型学习之书生·浦语大模型5——基于LMDeploy大模型量化部署实践

在这里插入图片描述

目录

在这里插入图片描述

大模型部署背景

在这里插入图片描述
在这里插入图片描述

LMDeploy部署

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

量化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

TurboMind

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

API server

在这里插入图片描述

动手实践环节

在这里插入图片描述

1.创建开发机

在这里插入图片描述

2.创建虚拟环境

在这里插入图片描述

3.服务部署

在这里插入图片描述
在线转换模型
在这里插入图片描述
在这里插入图片描述
离线转换

在这里插入图片描述

4.TurboMind推理

在这里插入图片描述

  • TurboMind+API服务
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    提供了一些API的接口
    在这里插入图片描述

  • Gradio Demo演示
    API server作为后端
    在这里插入图片描述
    注意这里要同时启动API server的
    在这里插入图片描述

TurboMind推理作为后端
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.Benchmark

在这里插入图片描述

模型量化

模型量化以在保证精度的同时,降低空间占用以及加快推理速度。

KV Cache量化

  • 第一步:计算minmax
    在这里插入图片描述

  • 第二步:通过minmax获取量化参数
    在这里插入图片描述
    在这里插入图片描述

  • 第三步:修改配置文件,打开一些开关

  • 量化效果:
    在这里插入图片描述
    在这里插入图片描述

  • 性能有下降,也有提升
    在这里插入图片描述
    在这里插入图片描述

W4A16量化

  • 第一步:计算minmax
    在这里插入图片描述

  • 第二步:量化权重模型
    在这里插入图片描述

  • 第三步:转换为TurboMind格式
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

量化效果
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考

  • https://github.com/InternLM/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/331141.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

7款值得收藏的前端动画特效(附效果图在线预览)

分享7款有趣也实用的前端动画特效 其中有CSS动画、canvas动画、js小游戏等等 下面我会给出特效样式图或演示效果图 但你也可以点击在线预览查看源码的最终展示效果及下载源码资源 canvas粒子空间特效 基于canvas实现的一款粒子空间特效 该特效初始时会从四周扩散粒子并随时间…

Java_二叉树详解

前言 程序员优劣之间最明显的就是数据结构和算法的掌握程度,二叉树作为数据结构中不可缺少的一员,可见其重要程度.我们一起来简单地学习二叉树吧~ 树型结构 在我们学习二叉树前先了解一下树型结构(二叉树是树型结构中的一种) 树是一种非线性的数据结构,它是有n (n>0) 个…

条码WMS仓储管理系统的价值与优势

在全球化和数字化的时代,企业面临着诸多挑战。在复杂的运营环境中,如何提高运营效率和效果,降低成本,增强竞争力,成为企业关注的焦点。而库存管理作为企业运营的关键环节,其重要性不言而喻。本文将深入探讨…

【PyTorch】PyTorch之Tensors索引切片篇

文章目录 前言一、ARGWHERE二、CAT、CONCAT、CONCATENATE三、CHUNK四、GATHER五、MOVEDIM和MOVEAXIS六、PERMUTE七、RESHAPE八、SELECT九、SPLIT十、SQUEEZE十一、T十二、TAKE十三、TILE十四、TRANSPOSE十五、UNBIND十六、UNSQUEEZE十七、WHERE 前言 介绍常用的PyTorch之Tenso…

【DC-DC】APS54085降压恒流 高辉度调光降压恒流芯片

产品描述 APS54085 是一款 PWM 工作模式,高效率、 外围简单、内置功率 MOS 管,适用于 5-100V 输入的高精度降压 LED 恒流驱动芯片。最大电流 2.0A。 APS54085 可实现线性调光和 PWM 调光, 线性调光有效电压范围 0.52-2.55V. PWM 调光频率范围 100…

山西电力市场日前价格预测【2024-01-19】

日前价格预测 预测说明: 如上图所示,预测明日(2024-01-19)山西电力市场全天平均日前电价为499.01元/MWh。其中,最高日前电价为898.49元/MWh,预计出现在18:00。最低日前电价为373.35元/MWh,预计…

elasticsearch 中热词使用遇到的坑

在使用es检索时,一般会创建索引以及索引下mapping和setting一样配置,如下: 命令创建配置方式: PUT /my_index { "settings": { "number_of_shards": 1 }, "mappings": { "properties": { "title": { …

k8s的对外服务--ingress

service作用体现在两个方面 1、集群内部 不断跟踪pod的变化,更新endpoint中的pod对象,基于pod的IP地址不断变化的一种服务发现机制 2、集群外部 类似负载均衡器,把流量ip端口,不涉及转发url(http,https&a…

Docker-02-镜像项目部署

Docker-02-镜像&项目部署 文章目录 Docker-02-镜像&项目部署一、镜像①:镜像结构②:Dockerfile③:构建镜像01:构建02:查看镜像列表03:运行镜像 二、网络①:容器的网络IP地址②&#xff…

《如何制作类mnist的金融数据集》——0.背景

0.背景 最近在金融人工智能领域进行了研究。由于金融领域数据集的欠缺,因此需要根据其领域中的各种数据的特征进行相应数据集的制作。 下图所示是一篇关于金融与预测的论文,题目为:《预测自动交易的财务信号:一个可解释的方法》。…

分享用is_sorted()解决单调数列问题

题目名称 896. 单调数列 目录 题目名称 896. 单调数列 1.题目 2.题目分析 3.题目知识 3.1 is_sorted() 3.2.迭代器与反向迭代器 3.2.1理解迭代器 3.2.2正向迭代器 3.2.3反向迭代器 最后🍨 推荐阅读顺序: 1.题目->2.题目分析->3.题目知识点 1.题目 如…

AI新工具(20240118):AlphaGeometry解答国际数学奥林匹克竞赛中的几何问题

AlphaGeometry AlphaGeometry是由谷歌旗下的DeepMind团队开发的一款人工智能系统,它能够解决国际数学奥林匹克竞赛(IMO)的几何题。AlphaGeometry模型通过神经语言模型和符号推理引擎相结合的方式,实现了复杂的几何定理证明。该模…

My CUDA Note

1. CUDA中的grid和block基本的理解 Kernel: Kernel不是CPU,而是在GPU上运行的特殊函数。你可以把Kernel想象成GPU上并行执行的任务。当你从主机(CPU)调用Kernel时,它在GPU上启动,并在许多线程上并行运行。 Grid: 当你…

Chondrex:Glycosaminoglycans Assay Kit(糖胺聚糖检测试剂盒)

糖胺聚糖(glycosaminoglycans,GAGs)是一种携带负电荷的多糖链,位于大多数结缔组织和许多不同类型细胞的细胞外基质(extracellular matrices, ECM)中以及细胞表面上。由重复双糖单位复合构成的糖胺聚糖可分为…

动态住宅代理IP是什么?如何配置使用?

动态住宅代理IP,作为一种高效的网络工具,不仅能够为您的在线活动提供额外的保护层,还能增强匿名性和数据安全。接下来将深入探讨动态住宅代理IP的定义、设置步骤、以及它如何有效保护您的网络隐私和安全。 一、动态住宅代理是什么&#xff1f…

尚硅谷Nginx高级配置笔记

写在前面:本笔记是学习尚硅谷nginx可成的时候的笔记,不是原创,如有需要,可以去官网看视频,以下是pdf文件 Nginx高级 第一部分:扩容 通过扩容提升整体吞吐量 1.单机垂直扩容:硬件资源增加 云…

前端react入门day04-useEffect与Hook函数

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 useEffect 的使用 useEffect 的概念理解 useEffect 依赖项参数说明 useEffect — 清除副作用 自定义Ho…

小程序中使用上传图片,显示、删除、预览

一、功能介绍 需要哦用户点击加号上传图片&#xff0c;并展示所上传图片和能够删除和预览 二、功能实现 采用的uniapp&#xff0c;创建了一个view容器包裹加号图标和展示的图片。 内部展示图片超过9张时候&#xff0c;加号图片隐藏 <view class"img-list">/…

【Vue】Vue 路由的配置及使用

目录捏 前言一、路由是什么&#xff1f;1.前端路由2.后端路由 二、路由配置1.安装路由2.配置路由 三、路由使用1.route 与 router2. 声明式导航3. 指定组件的呈现位置 四、嵌套路由&#xff08;多级路由&#xff09;五、路由重定向1.什么是路由重定向&#xff1f;2.设置 redire…

asp.net mvc framework 4.8 升级到 net 8.0

首先仔细阅读官方给出的升级文档这是地址 简介 - Training | Microsoft Learn 跟据文档中的操作升级 升级之后可能会有大量报错&#xff0c;将报错都改好&#xff0c;运行 如果能正常运行起来那么恭喜你&#xff0c;一般是会有问题 我遇到的问题是项目启动不了&#xff0c…