【开发】模型部署笔记

目录

    • 模型量化

模型量化

1、模型量化优点

  • 低精度模型表示模型权重数值格式为FP16(半精度浮点)或者INT8(8位定点整数),但是目前低精度往往就指代INT8。
  • 常规精度模型则一般表示模型权重数值格式为FP32(32位浮点,单精度)。
  • 混合精度则在模型中同时使用FP32和FP16的权重数值格式。FP16减少了一半的内存大小,但有些参数或操作符必须采用FP32格式才能保持准确度。

2、模型量化方案

  • data free:不适用校准集,直接将浮点数转化成量化数。高通的DFQ不使用校准集也得到了很高的精度。
  • calibration:基于校准集方案,通过输入少量真实数据进行统计分析。
  • finetune:基于训练微调的方案,将量化误差在训练时仿真建模,调整权重使其更适合量化。好处是能带来更大的精度提升,缺点是要修改模型训练代码,开发周期较长。

在这里插入图片描述
FP32转Int8量化参考这篇博客:
Int8量化介绍

3、PTQ
训练后量化(Post Training Quantizationi),也叫做离线量化,根据量化零点 x z e r o _ p o i n t x_{zero\_point} xzero_point是否为0,训练后量化分为对称量化和非对称量化;根据数据通道顺序NHWC这一维度区分,训练后量化分为逐层量化和逐通道量化。目前TensorRT使用逐层量化的方法,每一层采用同一个阈值进行量化。逐通道量化对每一层每个通道都有各自的阈值,对精度可以有一个很好的提升。

4、QAT
在线量化,即在模型训练时加入伪量化节点,用于模拟模型量化时引起的误差。伪量化节点就是模仿quantization-dequantization的过程。
在这里插入图片描述
论文中一般在activation后和conv weight之前加入伪量化节点。

4、量化的分类

  • 二值化
  • 线性量化:采用均匀分布的聚类中心,原始浮点数据和量化后的定点数据存在一个简单的线性变换关系,因为卷积、全连接等网络层本身只是简单的线性计算,因此线性量化中可以直接用量化后的数据直接计算。
  • 对数量化:一种比较特殊的量化方法。两个同底的幂指数进行相乘,那么等价于其指数相加,降低了计算强度。同时加法也被转变为索引计算。

5、对称量化和非对称量化
根据偏移量Z是否为0,可以将浮点数的线性量化分为两类:对称量化和非对称量化。

在这里插入图片描述
对称量化的浮点值和 8 位定点值的映射关系如下图,从图中可以看出,对称量化就是将一个tensor中的[-max(|x|), max(|x|)]内的FP32值分别映射到8bit数据的[-128, 127]的范围内,中间值按照线性关系进行映射,称这种映射关系是对称量化。可以看出,对称量化的浮点值和量化值范围都是相对于0对称。
在这里插入图片描述
非对称量化就是偏移量不为0,此时INT8的值域为[0, 255]。

权重量化浮点值可以分为两个步骤:
1、通过在权重张量中找到min和max值从而确定 x s c a l e x_{scale} xscale x z e r o p o i n t x_{zero_point} xzeropoint
2、将权重张量的每个值从FP32转换为INT8。
在这里插入图片描述

6、量化方法的改进
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/630821.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从RTTR谈Reflection机制

虽然C11引入了RTTI、Metaprogramming 等技术,但C在Reflection编程方面依旧功能有限。在社区上,RTTR则提供了一套C编写的反射库,补充了C在Reflection方面的缺陷。 零、环境 操作系统Windows 11Visual StudioVisual Studio Community 2022 CMa…

使用JasperReport工具,生成报表模版,及通过JavaBean传参,常见问题及建议

1.下载JasperReport工具 下载地址:社区版 - Jaspersoft 社区 邮箱:lorettepatri.ckoa5434gmail.com 密码:Zx123456. 2.工具使用方法注意 1.一次参数需要在左下角Parameters中新建,直接拖转右上角的TextField不会自动新建参数,到头来还是要在Parameters中新建 2.循环参数需…

实在智能AI+RPA:引领数字化转型的超自动化智能体

引言 在数字化时代,企业面临着前所未有的挑战和机遇。数字化转型不仅是企业生存的需要,更是实现持续增长和创新的关键。AIRPA作为数字化转型的重要驱动力,正帮助企业实现业务流程的自动化和智能化,从而提升效率、降低成本、增强竞…

做抖店的门槛高吗?一个月的时间能入门吗?基础问题解答如下

我是王路飞。 抖店,依旧是普通人做抖音最好的渠道,没有之一,依旧值得我们all in。 这是我对2024年抖音小店的看法和态度, 那么做抖店的门槛高吗?新手用一个月的时间能做到入门吗?投入和回报的数据是多少…

【MySQL数据库开发设计规范】之SQL使用规范

欢迎点开这篇文章,自我介绍一下哈,本人姑苏老陈 ,是一名JAVA开发老兵。 本文收录于 《MySQL数据库开发设计规范》专栏中,该专栏主要分享一些关于MySQL数据库开发设计相关的技术规范文章,定期更新,欢迎关注&…

时间序列预测:探索性数据分析和特征工程的实用指南

时间序列分析是数据科学和机器学习领域最广泛的主题之一:无论是预测金融事件、能源消耗、产品销售还是股票市场趋势,这一领域一直是企业非常感兴趣的领域。 随着机器学习模型的不断进步,使除了传统的统计预测方法(如回归模型、ARIMA模型、指数平滑)外&a…

结合多模态 AI 谷歌展示 AR 眼镜原型机;Meta 被曝开发带摄像头的 AI 耳机丨 RTE 开发者日报 Vol.204

开发者朋友们大家好: 这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「…

(实测验证)【移远EC800M-CN 】TCP 透传

引言 本文章使用自研“超小体积TTL转4GGPS集成模块”进行实测验证; 1、配置移远EC800M-CN TCP 透传 串口助手发送: ATQIOPEN1,0,"TCP","36.137.226.30",39755,0,2 //配置服务器地址和端口号; 4G模组返回…

C++(week3):数据结构与算法

文章目录 (十一) 常用数据结构1.动态数组(1)模型(2).h与.c(3)实现 2.链表(1)模型(2)分类(3)基本操作(API)(4)实现(5)链表常见面试题(6)空间与时间 3.栈(1)模型(2)基本操作(3)实现(4)栈的应用 4.队列(1)模型(2)基本操作(API)(3)实现(4)队列的应用 5.哈希表(1)哈希表的提出原因(2…

Qwen 开源标杆

Qwen的博客 在线体验Qwen开源版本、非常丝滑 不算量化、已经开源的Qwen1.5 版本有9个: 0.5B、1.8B、4B、7B、14B、32B、72B、110B、MoE-A2.7B 闭源已经发展到 Qwen-Max-0428、网页端从2.1升级到2.5 Qwen API详情 一些记录: 1、Qwen1.5 110B&#x…

echart树状图图表

根据后端返回的树状结构&#xff0c;渲染echart树状图&#xff0c;并且默认二级节点后是折叠的 父级引入组件 .tree_chart {width: 100%;height: calc(100% - 30px);}<div class"tree_chart"><EachartTree :treeData"allData.treeData" /><…

conan2 基础入门(02)-安装

conan2 基础入门(02)-安装 文章目录 conan2 基础入门(02)-安装⭐前言⭐安装python安装安装包安装自行操作 ⭐验证配置环境变量命令行验证conan配置文件 END ⭐前言 Conan 2.0: C and C Open Source Package Manager 官方提供三种安装conan的方式。分别为&#xff1a; Recommen…

哈希表的理解和实现

目录 1. 哈希的概念 (是什么) 2. 实现哈希的两种方式 (哈希函数) 2.1. 直接定址法 2.2. 除留余数法 2.2.1. 哈希冲突 3. 补充知识 3.1. 负载因子 3.2. 线性探测和二次探测 4. 闭散列实现哈希表 (开放定址法) 4.1. 开放定址法的实现框架 4.2. Xq::hash_table::insert…

【数组中重复的数据】leetcode,python

和上题一样&#xff0c;【找到所有数组中消失的数字】 换个判断条件就行 class Solution:def findDuplicates(self, nums: List[int]) -> List[int]:nlen(nums)for i in nums:x(i-1)%nnums[x]n#只需要替换条件即可return [i1 for i,num in enumerate(nums) if num>(2*n)…

(1)医疗图像处理:MRI磁共振成像-基本原理--(杨正汉

一、基本原理 1.组成 对应了解 1&#xff09;主磁体&#xff1a; 基本构建&#xff0c;用于产生磁场&#xff0c;主要有两种方式产生磁场永磁&#xff08;磁铁&#xff09;、电磁&#xff08;给线圈通电&#xff09;。MR按主磁场的场强分类主要有四类&#xff0c;分类的原因…

有什么比较方便的裁剪图片软件?7个软件教你轻松裁剪图片

有什么比较方便的裁剪图片软件&#xff1f;7个软件教你轻松裁剪图片 以下是七款比较方便的裁剪图片软件&#xff0c;它们可以帮助您轻松裁剪图片&#xff1a; 图片编辑助手&#xff1a;作为图像处理领域的佼佼者&#xff0c;这款软件提供了多种裁剪工具和功能。您可以使用其…

Java入门基础学习笔记23——For循环结构

1、for循环&#xff1a; 控制一段代码反复执行很多次。 2、For循环语句的基本结构&#xff1a; for(初始化表达式&#xff1b;判断表达式&#xff1b;递增&#xff08;递减&#xff09;表达式&#xff09; {循环体语句&#xff08;重复执行的代码&#xff09; } 例&#xff1…

pytest教程-47-钩子函数-pytest_sessionfinish

领取资料&#xff0c;咨询答疑&#xff0c;请➕wei: June__Go 上一小节我们学习了pytest_sessionstart钩子函数的使用方法&#xff0c;本小节我们讲解一下pytest_sessionfinish钩子函数的使用方法。 pytest_sessionfinish 钩子函数在 Pytest 测试会话结束时调用&#xff0c;…

【正则表达式】2、深入了解与应用

1、关于分组与引用 假设我们现在要去查找 15 位或 18 位数字。根据前面学习的知识&#xff0c;使用量词可以表示出现次数&#xff0c;使用管道符号可以表示多个选择&#xff0c;你应该很快就能写出\d{15}|\d{18}。但经过测试&#xff0c;你会发现&#xff0c;这个正则并不能很好…

20231911 2023-2024-2 《网络攻防实践》实践九报告

1.实践内容 1.1 缓冲区 缓冲区是内存空间的一部分&#xff0c;在内存中预留了一定的存储空间&#xff0c;用来暂时保存输入和输出等I/O操作的一些数据&#xff0c;这些预留的空间就叫做缓冲区。 1.2 shellcode shellcode是一段用于利用软件漏洞而执行的代码&#xff0c;也可以…