大模型学习之书生·浦语大模型5——基于LMDeploy大模型量化部署实践

article2024/12/24 3:24:34/文章来源:https://blog.csdn.net/uncle_ll/article/details/135637903

在这里插入图片描述

大模型部署背景

在这里插入图片描述

LMDeploy部署

在这里插入图片描述

量化

在这里插入图片描述

TurboMind

在这里插入图片描述

API server

在这里插入图片描述

动手实践环节

在这里插入图片描述

1.创建开发机

在这里插入图片描述

2.创建虚拟环境

在这里插入图片描述

3.服务部署

在这里插入图片描述
在线转换模型

离线转换

在这里插入图片描述

4.TurboMind推理

在这里插入图片描述

TurboMind+API服务

提供了一些API的接口
Gradio Demo演示
API server作为后端

注意这里要同时启动API server的

TurboMind推理作为后端
在这里插入图片描述

5.Benchmark

在这里插入图片描述

模型量化

模型量化以在保证精度的同时，降低空间占用以及加快推理速度。

KV Cache量化

第一步：计算minmax
第二步：通过minmax获取量化参数
第三步：修改配置文件，打开一些开关
量化效果：
性能有下降，也有提升

W4A16量化

第一步：计算minmax
第二步：量化权重模型
第三步：转换为TurboMind格式

量化效果
在这里插入图片描述

参考

https://github.com/InternLM/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/331141.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

7款值得收藏的前端动画特效（附效果图在线预览）

分享7款有趣也实用的前端动画特效其中有CSS动画、canvas动画、js小游戏等等下面我会给出特效样式图或演示效果图但你也可以点击在线预览查看源码的最终展示效果及下载源码资源 canvas粒子空间特效基于canvas实现的一款粒子空间特效该特效初始时会从四周扩散粒子并随时间…

Java_二叉树详解

前言程序员优劣之间最明显的就是数据结构和算法的掌握程度,二叉树作为数据结构中不可缺少的一员,可见其重要程度.我们一起来简单地学习二叉树吧~ 树型结构在我们学习二叉树前先了解一下树型结构(二叉树是树型结构中的一种) 树是一种非线性的数据结构,它是有n (n>0) 个…

条码WMS仓储管理系统的价值与优势

在全球化和数字化的时代，企业面临着诸多挑战。在复杂的运营环境中，如何提高运营效率和效果，降低成本，增强竞争力，成为企业关注的焦点。而库存管理作为企业运营的关键环节，其重要性不言而喻。本文将深入探讨…

【PyTorch】PyTorch之Tensors索引切片篇

文章目录前言一、ARGWHERE二、CAT、CONCAT、CONCATENATE三、CHUNK四、GATHER五、MOVEDIM和MOVEAXIS六、PERMUTE七、RESHAPE八、SELECT九、SPLIT十、SQUEEZE十一、T十二、TAKE十三、TILE十四、TRANSPOSE十五、UNBIND十六、UNSQUEEZE十七、WHERE 前言介绍常用的PyTorch之Tenso…

【DC-DC】APS54085降压恒流高辉度调光降压恒流芯片

产品描述 APS54085 是一款 PWM 工作模式,高效率、外围简单、内置功率 MOS 管，适用于 5-100V 输入的高精度降压 LED 恒流驱动芯片。最大电流 2.0A。 APS54085 可实现线性调光和 PWM 调光， 线性调光有效电压范围 0.52-2.55V. PWM 调光频率范围 100…

山西电力市场日前价格预测【2024-01-19】

日前价格预测预测说明： 如上图所示，预测明日（2024-01-19）山西电力市场全天平均日前电价为499.01元/MWh。其中，最高日前电价为898.49元/MWh，预计出现在18:00。最低日前电价为373.35元/MWh，预计…

elasticsearch 中热词使用遇到的坑

在使用es检索时，一般会创建索引以及索引下mapping和setting一样配置，如下：命令创建配置方式： PUT /my_index { "settings": { "number_of_shards": 1 }, "mappings": { "properties": { "title": { …

k8s的对外服务--ingress

service作用体现在两个方面 1、集群内部不断跟踪pod的变化，更新endpoint中的pod对象，基于pod的IP地址不断变化的一种服务发现机制 2、集群外部类似负载均衡器，把流量ip端口，不涉及转发url（http，https&a…

Docker-02-镜像项目部署

Docker-02-镜像&项目部署文章目录 Docker-02-镜像&项目部署一、镜像①：镜像结构②：Dockerfile③：构建镜像01：构建02：查看镜像列表03：运行镜像二、网络①：容器的网络IP地址②&#xff…

《如何制作类mnist的金融数据集》——0.背景

0．背景最近在金融人工智能领域进行了研究。由于金融领域数据集的欠缺，因此需要根据其领域中的各种数据的特征进行相应数据集的制作。下图所示是一篇关于金融与预测的论文，题目为：《预测自动交易的财务信号:一个可解释的方法》。…

分享用is_sorted()解决单调数列问题

题目名称 896. 单调数列目录题目名称 896. 单调数列 1.题目 2.题目分析 3.题目知识 3.1 is_sorted() 3.2.迭代器与反向迭代器 3.2.1理解迭代器 3.2.2正向迭代器 3.2.3反向迭代器最后🍨 推荐阅读顺序: 1.题目->2.题目分析->3.题目知识点 1.题目如…

AI新工具(20240118)：AlphaGeometry解答国际数学奥林匹克竞赛中的几何问题

AlphaGeometry AlphaGeometry是由谷歌旗下的DeepMind团队开发的一款人工智能系统，它能够解决国际数学奥林匹克竞赛（IMO）的几何题。AlphaGeometry模型通过神经语言模型和符号推理引擎相结合的方式，实现了复杂的几何定理证明。该模…

My CUDA Note

1. CUDA中的grid和block基本的理解 Kernel: Kernel不是CPU，而是在GPU上运行的特殊函数。你可以把Kernel想象成GPU上并行执行的任务。当你从主机（CPU）调用Kernel时，它在GPU上启动，并在许多线程上并行运行。 Grid: 当你…

Chondrex：Glycosaminoglycans Assay Kit（糖胺聚糖检测试剂盒）

糖胺聚糖（glycosaminoglycans，GAGs）是一种携带负电荷的多糖链，位于大多数结缔组织和许多不同类型细胞的细胞外基质（extracellular matrices, ECM）中以及细胞表面上。由重复双糖单位复合构成的糖胺聚糖可分为…

动态住宅代理IP是什么？如何配置使用？

动态住宅代理IP，作为一种高效的网络工具，不仅能够为您的在线活动提供额外的保护层，还能增强匿名性和数据安全。接下来将深入探讨动态住宅代理IP的定义、设置步骤、以及它如何有效保护您的网络隐私和安全。一、动态住宅代理是什么&#xff1f…

尚硅谷Nginx高级配置笔记

写在前面：本笔记是学习尚硅谷nginx可成的时候的笔记，不是原创，如有需要，可以去官网看视频，以下是pdf文件 Nginx高级第一部分：扩容通过扩容提升整体吞吐量 1.单机垂直扩容：硬件资源增加云…

前端react入门day04-useEffect与Hook函数

(创作不易，感谢有你，你的支持，就是我前行的最大动力，如果看完对你有帮助，请留下您的足迹） 目录 useEffect 的使用 useEffect 的概念理解 useEffect 依赖项参数说明 useEffect — 清除副作用自定义Ho…

小程序中使用上传图片，显示、删除、预览

一、功能介绍需要哦用户点击加号上传图片，并展示所上传图片和能够删除和预览二、功能实现采用的uniapp，创建了一个view容器包裹加号图标和展示的图片。内部展示图片超过9张时候，加号图片隐藏 <view class"img-list">/…

【Vue】Vue 路由的配置及使用

目录捏前言一、路由是什么？1.前端路由2.后端路由二、路由配置1.安装路由2.配置路由三、路由使用1.route 与 router2. 声明式导航3. 指定组件的呈现位置四、嵌套路由（多级路由）五、路由重定向1.什么是路由重定向？2.设置 redire…

asp.net mvc framework 4.8 升级到 net 8.0

首先仔细阅读官方给出的升级文档这是地址简介 - Training | Microsoft Learn 跟据文档中的操作升级升级之后可能会有大量报错，将报错都改好，运行如果能正常运行起来那么恭喜你，一般是会有问题我遇到的问题是项目启动不了&#xff0c…