多种策略提升线上 tensorflow 模型推理速度

前言

本文以最常见的模型 Bi-LSTM-CRF 为例,总结了在实际工作中能有效提升在 CPU/GPU 上的推理速度的若干方法,包括优化模型结构优化超参数,使用 onnx 框架等。当然如果你有充足的 GPU ,结合以上方法提升推理速度的效果将更加震撼。

数据

本文使用的数据就是常见的 NER 数据,我这里使用的是 BMEO 标注方法,如下列举一个样本作为说明:

华\B_ORG 东\M_ORG 师\M_ORG 范\M_ORG 大\M_ORG 学\E_ORG 位\O 于\O 上\B_LOC 海\E_LOC。

具体的标注方法标注规则可以根据自己的实际业务中的实体类型进行定义,这里不做深入探讨,但是有个基本原则就是标注的实体是符合实际业务意义的内容。

优化模型结构

对于 Bi-LSTM-CRF 这一模型的具体细节,我这里默认都是知道的,所以不再赘述。我们平时在使用模型的时候有个误区觉得 LSTM 层堆叠的越多效果越好,其实不然,如果是对于入门级的 NER 任务,只需要一个 Bi-LSTM 就足够可以把实体识别出来,完全没有必要堆叠多个 Bi-LSTM ,这样有点杀鸡用牛刀了,而且多层的模型参数量会激增,这也会拖垮最终的训练和推理速度。

image.png

对于其他的模型来说,也是同样的道理,优化模型结构,砍掉过量的层和参数,可能会取到意想不到的推理效果和速度。

优化超参数

在我看来三个最重要的超参数就是 batch_sizehidden_sizeembedding_dim ,这三个分别表示批处理样本数,隐层状态维度,嵌入纬度。这里的常见误区和模型参数量一样,会认为越大效果越好。其实不然,太大的超参数也会拖垮最终的训练和推理速度。正常在模型推理过程中,耗时基本是和这三个参数呈正相关关系。常见的参数设置可以按照以下的推荐值来进行即可:

batch_size:32、64
hidden_size:128、256
embedding_dim:128、256

对于简单的 NER 任务来说,这些超参数的设置已经足够使用了,如果是比较复杂的任务,那就需要适当调大 hidden_sizeembedding_dim,最好以 2 的 N 次方为值。batch_size 如果没有特殊业务要求,按照推荐值即可。

另外,如果你使用的是 tensorflow2.x 框架,可以使用 Keras Tuner 提到的 API ,不仅可以挑选最优的模型超参数,还能挑选最优的算法超参数。

onnx

ONNX(Open Neural Network Exchange)是一个用于表示深度学习模型的开放式标准。ONNX 的设计目标是使得在不同框架中训练的模型能够轻松地在其他框架中部署和运行。ONNX 支持在不同的部署环境中(例如移动设备、边缘计算、云端服务器)更加灵活地使用深度学习模型。

image.png

ONNX 在模型部署的时候会对模型做很多优化策略,如图结构优化、节点通信优化、量化、硬件加速、多线程和并行计算等。onnxruntime 是一个对 ONNX 模型提供推理加速的 python 库,支持 CPU 和 GPU 加速,GPU 加速版本为onnxruntime-gpu,默认版本为 CPU 加速。安装也很简单,直接使用 pip 安装即可。另外安装 tf2onnx 需要将 tensorflow2.x 模型转换为 onnx 模型

下面以本文中使用的模型来进行转化,需要注意的有两点,第一是要有已经训练并保存好的 h5 模型,第二是明确指定模型的输入结构,代码中的是 (None, config['max_len']) ,意思是输入的 batch_size 可以是任意数量,输入的序列长度为 config['max_len'] , 具体代码如下:

def tensorflow2onnx():
    model = NerModel()
    model.build((None, config['max_len']))
    model.load_weights(best.h5)
    input_signature = (tf.TensorSpec((None, config['max_len']), tf.int32, name="input"),)
    onnx_model, _ = tf2onnx.convert.from_keras(model, input_signature=input_signature,)
    onnx.save(onnx_model, 'best.onnx')

保存好 onnx 模型之后,我们使用 onnx 模型进行 CPU 推理。只需要简单的几步即可完成推理任务, results_ort 就是推理结果 logits ,具体代码如下:

def inference():
    x_train, y_train, x_test, y_test = getData()
    sess = ort.InferenceSession(config['onnxPath'], providers=['CPUExecutionProvider'])   
    results_ort = sess.run(["output_1"], {'input': x_train})[0]

效果对比

在综合运用以上的三种,将之前的模型结构进行减小到一层的 Bi-LSTM ,并且将超参数进行适当的减少到都为 256 ,然后使用 onnx 加速推理,在 CPU 上面最终从推理速度 278 ms ,下降到 29 ms ,提升了 9 倍的推理速度。

image.png

image.png

如果有 GPU ,我们可以安装 onnxruntime-gpu (如果安装时候和 onnxruntime 有冲突,可以先卸载 onnxruntime ),然后将上面的代码改为如下即可,最终的推理时间进一步减少了一半:

sess = ort.InferenceSession(config['onnxPath'], providers=['CUDAExecutionProvider'])

image.png

结论

最终我们从 278 ms 下降到 15 ms ,实现了 18 倍的推理提速,综上可以看出本文介绍的几种策略的综合使用确实能够加速推理速度,也说明了工业上进行模型部署优化是很有必要的。

那么,我们该如何学习大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线

学习大型人工智能模型,如GPT-3、BERT或任何其他先进的神经网络模型,需要系统的方法和持续的努力。既然要系统的学习大模型,那么学习路线是必不可少的,下面的这份路线能帮助你快速梳理知识,形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别:AI大模型API应用开发工程

L3级别:大模型应用架构进阶实践

L4级别:大模型微调与私有化部署

一般掌握到第四个级别,市场上大多数岗位都是可以胜任,但要还不是天花板,天花板级别要求更加严格,对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。

以上的AI大模型学习路线,不知道为什么发出来就有点糊,高清版可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/692915.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue学习笔记_Day02

文章目录 1,指令修饰符2,样式控制3,v-model进阶4,计算属性5,监视器6,生命周期 1,指令修饰符 跟在指令后面,具有特殊的功能。 事件修饰符: .enter:只有enter…

C#异步编程是怎么回事

首先以一个例子开始 我说明一下这个例子。 这是一个演示异步编程的例子。 输入job [name],在一个同步的Main方法中,以一发即忘的方式调用异步方法StartJob()。输入time,调用同步方法PrintCurrentTime()输出时间。输出都带上线程ID,便于观察。 可以看到,主线程不会阻塞。主…

Django框架中Ajax GET与POST请求的实战应用

系列文章目录 以下几篇侧重点为JavaScript内容0.0 JavaScript入门宝典:核心知识全攻略(上)JavaScript入门宝典:核心知识全攻略(下)Django框架中Ajax GET与POST请求的实战应用VSCode调试揭秘:L…

@BeforeAll 和 @AfterAll 必须是 static 的原因

BeforeAll 和 AfterAll 必须是 static 的原因 执行时机: BeforeAll 方法在所有测试方法之前运行。AfterAll 方法在所有测试方法之后运行。 实例化前/后的执行: 因为 BeforeAll 是在所有测试方法执行之前运行的,所以它在任何一个测试实例创建…

拉格朗日乘子将不等式约束转化为等式约束例子

拉格朗日乘子将不等式约束转化为等式约束例子 在优化问题中,常常需要将不等式约束转化为等式约束。使用拉格朗日乘子法,可以通过引入松弛变量将不等式约束转换为等式约束,然后构造拉格朗日函数进行求解。 拉格朗日乘子法简介 拉格朗日乘子法是求解带约束优化问题的一种方…

Rust-02-变量与可变性

在Rust中,变量和可变性是两个重要的概念。 变量:变量是用于存储数据的标识符。在Rust中,变量需要声明其类型,例如: let x: i32 5; // 声明一个名为x的变量,类型为i32(整数)&#…

jasypt配置文件密码加密解码

1. 需求讲解 对配置文件的组件密码加密,比如数据库redis等密码加密 2. 开发 2.1 依赖引入 <!-- jasypt 加解密 --><dependency><groupId>com.github.ulisesbocchio</groupId><artifactId>jasypt-spring-boot-starter</artifactId><v…

【C语言】动态内存经典笔试题(下卷)

前言 如果说动态内存是C语言给我们的一个工具&#xff0c;那么只有掌握了工具的特点我们才能更好地使用。 紧随上卷&#xff0c;我们再来看看动态内存另外两道经典的笔试题。 &#xff08;建议没看过上卷的朋友可以先看完上卷再回来&#xff1a;【C语言】动态内存经典笔试题…

Java面试八股之什么是自动装箱和自动拆箱

什么是自动装箱和自动拆箱 在Java中&#xff0c;自动装箱&#xff08;Autoboxing&#xff09;和自动拆箱&#xff08;Auto-unboxing&#xff09;是两个与基本数据类型和它们对应的包装类之间的转换相关的特性。这两个概念自Java 5&#xff08;也称为Java SE 5或JDK 5&#xff…

牛客NC18 顺时针旋转矩阵【中等 数学 Java/Go/PHP/C++】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/2e95333fbdd4451395066957e24909cc https://www.lintcode.com/problem/161/ 思路 Java代码 import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定&#xff0c;请勿修改&#…

C#操作MySQL从入门到精通(16)——使用子查询

前言: 我们在查询数据的过程中有时候查询的数据不是从数据库中来的,而是从另一个查询的结果来的,这时候就需要使用子查询,本文使用的测试数据如下: 1、子查询 下面的代码就是先查询地址是安徽和广西的学生年龄,然后获取年龄对应的姓名 private void button__SubQuery…

像素蛋糕Photoshop颜色导出不一致问题分析与解决

问题点&#xff1a;发现用像素蛋糕修完图明天应该为最右边图片显示 模特应该是白皙的&#xff0c;但是导出图片无论是否勾选SRGB都表现的为种间图片颜色一样 饱和度巨高。 问题分析&#xff1a;那这一定是颜色配置文件出现问题&#xff0c;找到客服表示可以去PS打开看是否与预…

彼长技以助己(5)量级思维

彼长技以助己&#xff08;5&#xff09;量级思维 数字感性与理性测试 我先讲一个可能发生在我们身边的故事&#xff1a;一个程序员在一个项目开发中使用了考虑到目前业务量少&#xff0c;快速写了一个冒泡排序&#xff0c;结果被经理批评了&#xff0c;然后他跑来找你诉苦&am…

Application Load Balancer-ALB

Application Load Balancer-ALB 什么是ALB开通ALB服务实现IPv4服务的负载均衡创建ALB实例创建服务器组添加后端服务器配置监听设置域名解析&#xff08;可选&#xff09;释放ALB实例 什么是ALB 在介绍ALB之前首先介绍一下负载均衡SLB&#xff0c;可以说SLB是负载均衡家族之首 …

CentOS7 配置Nginx域名HTTPS

Configuring Nginx with HTTPS on CentOS 7 involves similar steps to the ones for Ubuntu, but with some variations in package management and service control. Here’s a step-by-step guide for CentOS 7: Prerequisites Domain Name: “www.xxx.com”Nginx Install…

目录穿越漏洞CVE-2018-7171复现 又学到一招小技巧!!!!

还是半夜睡不着&#xff0c;打开靶机开始操作。今天看了文件下载和目录穿越漏洞想结合以及防御方法。半夜来进行操作一波。复现一下漏洞&#xff0c;这个网上的文章页比较的少&#xff01;&#xff01;&#xff01; 开始操作起来&#xff01;&#xff01;&#xff01; 进入到页…

【初识Objective-C】

Objective-C学习 什么是OCOC的特性OC跑的第一个程序helloworld OC的一些基础知识标识符OC关键字数据类型字符型c字符串为什么NSString类型定义时前面要加和普通的c对象有什么区别 一些基础知识if语句switch语句三种循坏语句for循环&#xff1a;用于固定次数的循环while循环&…

小成代码路的错误2

文章目录 1.继承中子类和父类之间的隐藏&#xff1b;只要函数名字相同就会出现隐藏&#xff1b;这里和函数的参数无关&#xff1b;继承的析构函数会自动先调用子类的析构函数再调用父类的析构函数&#xff1b;不需要写仍和的父类的析构函数&#xff1b;继承中的静态成员在父类中…

SpringBoot3学习总结

一.SpringBoot3介绍 (一)主要目标 SpringBoot的主要目标是&#xff1a; 为所有 Spring 开发提供更快速、可广泛访问的入门体验。 开箱即用&#xff0c;设置合理的默认值&#xff0c;但是也可以根据需求进行适当的调整 提供一系列大型项目通用的非功能性程序&#xff08;如…

第二届黄河流域团队赛个人wp

个人wp web 两个题都几乎是网上的原题&#xff0c;不想多说了&#xff0c;放个链接&#xff0c;重点记录一下自己第一次遇到的misc 冰蝎流量分析 web1 https://blog.csdn.net/qq_51768842/article/details/125153850 web2 https://blog.csdn.net/m0_73512445/article/detai…