深度学习笔记(四)——使用TF2构建基础网络的常用函数+简单ML分类实现

文中程序以Tensorflow-2.6.0为例
部分概念包含笔者个人理解,如有遗漏或错误,欢迎评论或私信指正。
截图和程序部分引用自北京大学机器学习公开课

TF2基础常用函数

1、张量处理类

强制数据类型转换:

a1 = tf.constant([1,2,3], dtype=tf.float64)
print(a1)
a2 = tf.cast(a1, tf.int64)  # 强制数据类型转换
print(a2)

查找数据中的最小值和最大值:

print(tf.reduce_min(a2), tf.reduce_max(a2))

上一行例子中是对整个张量查找,也按照一定的方向查找,只按照行或只按照列,这由axis变量决定。通常axis=0代表按列查找,axis=1代表按行查找
在这里插入图片描述

a1 = tf.constant([[1,2,3],[2,3,4]])
print(a1)
print(tf.reduce_max(a1, axis=0))    # 按照列查找最大的行
print(tf.reduce_sum(a1,axis=1))     # 按照行计算各列的和

常见的张量检索类函数在tf.reduce_xxx可以查看

张量中数据的索引,可以按照行,或者按照列索引一个张量数据中的最大值和最小值

test = np.array([[1, 2, 3],[2, 3, 4],[5, 6, 7], [7, 8, 2]])
print(test)
print(tf.argmax(test, axis=0))  # 按列查找,找到每一列的最大值序列号
print(tf.argmax(test, axis=1))  # 按行查找,找到每一行的最大值序列号

随机数生成,最常用的随机数生成是正态分布和均匀分布,有时候后我们期望生成的随机数在0到1之间,归一化的数据有利于网络的快速收敛。除了上一篇博客深度学习笔记(三) 中提及的tf中的随机数张量生成,也可以便捷的使用numpy(后文使用np表示)提供的随机数生成器,同时补充一点,大多数区间范围性质的函数,输入的区间都是前闭后开的,这点在tf np skl 甚至其他C++库中都是成立的

# 生成[0,1)内的随机数
rdm = np.random.RandomState(seed=1)     # 定义随机数生成器rdm,使用随机数种子seed=1
usr_random1 = rdm.rand()    # 无输入维度时返回一个常量
usr_random2 = rdm.rand(2, 3) # 返回2行3列的随机数矩阵
print("usr_random1= {} \r\n usr_random2= {}".format(usr_random1, usr_random2))

下面继续归纳几个np中常用的数组处理函数。这几个np函数只做简单说明,具体用法可以用到时再深度查阅资料
数组垂直叠加

# 数组垂直叠加
a1 = np.array([1, 2, 3])
a2 = np.array([4, 5, 6])
b = np.vstack((a1, a2))
print(b)

根据多组范围和步长,生成多维数组,每组的起始结束和步长可以不同,最终输出的列数会以最长的那组为准,行数等于总的组数:

# np.mgrid[起始值:结束值:步长,起始值:结束值:步长, ...... ]
a1, a2 = np.mgrid[1:3:1, 3:6:0.5]
print(a1)
print(a2)

多维数组拉伸为一个维度,并且将多个数组对齐后一 一配对:

# a1 a2 续上一段代码
b = np.c_[np.ravel(a1), np.ravel(a2)]   # a1.ravel()执行二维变一维拉伸,np.c_进行组合操作
print(b)

2、数学运算类

四则运算类:(注意:只有维度相同的数据才可以做四则运算,运算均是对应位置元素进行计算,同时tf中,除非指定,默认生成的张量数据时类型为int32或float32

a1 = tf.constant([[1,2,3],[1,2,3]])
a2 = tf.constant([[2,3,4],[2,3,4]])
print(tf.add(a1, a2))   # 加
print(tf.subtract(a1, a2))  # 减
print(tf.multiply(a1, a2))  # 乘
print(tf.divide(a1, a1))    # 除

平方与开根号:(这里的计算同样是对应位置元素进行计算)

a1 = tf.fill([1,3], 3.)  # 这里的指定值为3. 小数点是为了生成float32类型数据
print(a1)
print(tf.pow(a1, 3))    # 开三次方根,第二个参数就是开根的次数
print(tf.square(a1))    # 平方
print(tf.square(a1))    # 开方

张量的叉乘(向量积):

a = tf.ones([3, 2])     # 3行2列
b = tf.fill([2, 3], 3.) # 2行3列
print(tf.matmul(a, b))  # 矩阵叉乘得6行6列,叉乘的两个矩阵,前者的列数必须和后者的行数相等

3、训练处理类

标记训练参数,网络训练的过程实质上最重要的就是更新网络中的参数,所以需要告知网络中哪一个参数是可以被跟新的,这样tensorflow框架会自动的在网络反向传播的过程中记录每一层的梯度信息,便于处理。

# tf.Variable(初始值) 函数用于标记可变参数
tf.Variable(tf.random.normal([2,2],mean=0,stddev=1))

标签/特征数据匹配,训练之前,预先准备的特征数据和标签数据往往是区分开的,所以需要将他们一 一对应上。将输入数据的特征和标签对应匹配,构建出新的用于训练的变量:

# data = tf.data.Dataset.from_tensor_slices((特征数据, 标签数据)) 可以直接输入numpy或者tensor格式的数据
features = tf.constant([12, 15, 20, 11])    # 特征数据
labels = tf.constant([0, 1, 1, 0])          # 标签
dataset = tf.data.Dataset.from_tensor_slices((features, labels))    # 对应结合
for element in dataset:
    print(element)  # 输出

在上面的程序中from_tensor_slices()函数要求两个数据的第一个维度的大小必须相同即可,所以第一行的特征数据也可以改为:

features = tf.constant([[12,13], [15,16], [20,21], [10,11]])  # 第一个维度任然是4

记录梯度,以及自动微分,在训练的过程中自动跟新参数是一个循环加反向传播的过程,反向传播时,我们需要知道每个网络层中损失函数的梯度,在tf中可以使用上下文记录器自动在迭代过程中记录每个层的梯度信息。这主要由两个函数组成tf.GradientTape() 函数起到上下文记录的作用,用于记录层信息,gradient()函数用于求导即求梯度

with tf.GradientTape() as tape:	# 记录下两行的层信息
    w = tf.Variable(tf.constant(3.0))	# 标记可变参数
    loss = tf.pow(w, 2)	# 设置损失函数类型
grad = tape.gradient(loss, w)	# 损失函数对w求导
print(grad)

在上面的代码中tf.pow(w, 2)表示损失函数为 l o s s = w 2 loss = w^2 loss=w2 梯度求导后得到 ∂ w 2 ∂ w = 2 w \frac{\partial w^2}{\partial w} = 2w ww2=2w 由于初始的参数w为3.0,求导后结果为6.0,程序结果grad为6。注意此处使用的with as结构中必须申明被导的变量,这样才能正常生效记录数据。


枚举数据,为了遍历数据并逐个处理,使用python中内置的enumerate(列表名)进行数据的枚举,通常配合for使用。

# 枚举列表
data = ['one', 'two', 'three']
for i, element in enumerate(data):	# 返回的第一个是序列号,第二个是内容
    print(i, element)

条件循环,在tf训练输出时,我们计算得到的结果有时需要和一个标准数据进行匹配判断并根据判断结果输出数据。可以实现类似于C语言中的循环+三元操作符的效果。tf.where函数的传参依次是条件语句,真值返回,假值返回。

a = tf.constant([1, 2, 3, 4, 5])
b = tf.constant([0, 1, 3, 4, 5])
c = tf.where(tf.greater(a, b), a, b)    # 如果条件为真返回第一个值,条件假返回第二个值
print(c)

上面的代码中配合tf.greater函数来比较大小,整行函数将会依次遍历a和b中的元素,当a>b为真时返回a,否则返回b


独热编码,在分类的问题中我们还需要了解独热码的概念,通常使用独热码作为标签数据,在被标记的类别中1表示是,0表示非,可以通俗理解为:有几类被分类数据独热码就有几个,每一类数据对应一个的独热码,类似译码器选址原理。

举例,有3个类
那么第一类的独热码是: 1 0 0
第2类的独热码是:	 0 1 0
第3类的独热码是:	 0 0 1

在tf中转化独热码:

classes = 4     # 标签数
labels = tf.constant([1, 0, 6 ,3])  # 输入标签数据
output = tf.one_hot(labels, depth=classes)  # 独热码转换,第一个变量为输入的标签数据,第二个为类别数
print(output)

上面使用了tf.one_hot()函数用来转化独热码,值得注意的是输入的数据会自动的从小到大排序后再转化对应的独热码。所以上面的程序输出了

tf.Tensor(
[[0. 1. 0. 0.]		# 对应1
 [1. 0. 0. 0.]		# 对应0
 [0. 0. 0. 0.]		# 对应6
 [0. 0. 0. 1.]], 	# 对应3
 shape=(4, 4), dtype=float32)

softmax()函数,在网络输出的结果中,如果直接按照最终输出的值判断类型结果往往比较抽象。比如网络最终会输出一个矩阵[2.52, -3.1, 5.62],那么如何确定这个矩阵是对应哪一个类别。这里我们需要通过归一化和概率来判断,假设这个输出的三列矩阵分别对应三个类别的得分数值,那我们可以将三个值相加求和再分别除以各自来得到每个数的百分比占比。当然在机器学习中softmax()也是类似这样做的,不过为了避免负数和特殊0值以及数据的连续性,引入指数函数辅助计算:
S o f t m a x ( y i ) = e y i ∑ j = 0 n e y i   \mathit{Softmax(y_{i} )=\frac{e^{y_{i} } }{ {\textstyle \sum_{j=0}^{n}e^{y_{i} {\LARGE {\ } } } } } } Softmax(yi)=j=0neyi eyi 同时softmax()函数的输出符合概率分布定义: ∀ x , P ( X = x ) ∈ [ 0 , 1 ] 且 ∑ x P ( X = x ) = 1 \mathit{{\LARGE } \forall x, P(X=x)\in [0, 1] 且\sum_{x}^{} P(X=x)=1 } x,P(X=x)[0,1]xP(X=x)=1 所以在上面的[2.52, -3.1, 5.62]例子中不难计算得到对应结果为[0.256, 0.695, 0.048]
在这里插入图片描述
第二列最大,所以我们可以认为这个输出举证表示第二类的可能性最大。综上softmax()的属性决定它大多数时候应用在网络的输出位置

y = tf.constant([1.01, 2.02, -1.11])
y_out = tf.nn.softmax(y)
print("data {}, after softmax is {}".format(y, y_out))

跟新权重参数,在上面的程序中完成了数据的读入,损失梯度计算那么计算过的结果就需要计时更新到权重上。值得注意,跟新参数之前一定要申明参数是可训练自更新的。通常计算得到梯度后直接跟新参数就可以完成一次反向传播。

w = tf.Variable(4)		# 申明可变参数,并赋初值为4
w.assign_sub(1)		# 对可变参数执行一次自减跟新,传入参数为被减数
print(w)

根据鸢尾花数据进行简单的分类任务

软件环境:

cuda = 11.2
python=3.7
numpy==1.19.5
matplotlib== 3.5.3
notebook==6.4.12
scikit-learn==1.2.0
tensorflow==2.6.0

分类时主要有以下几步:
**1、加载数据:**这里直接通过sklearn 包中自带的数据进行举例

# 导入所需模块
import tensorflow as tf
from sklearn import datasets
from matplotlib import pyplot as plt
import numpy as np
# 导入数据,分别为输入特征和标签
x_data = datasets.load_iris().data
y_data = datasets.load_iris().target

2、打乱数据顺序(由于这里的数据是直接加载已有数据,所以先打乱,对于其他数据不一定要这步),分割数据为训练部分和测试部分。注意使用随机数种子,这样可以保证在不同设备和时间运行得到的结果是相同的。

# 随机打乱数据(因为原始数据是顺序的,顺序不打乱会影响准确率)
# seed: 随机数种子,是一个整数,当设置之后,每次生成的随机数都一样
np.random.seed(116)  # 使用相同的seed,保证输入特征和标签一一对应
np.random.shuffle(x_data)
np.random.seed(116)
np.random.shuffle(y_data)
tf.random.set_seed(116)
# 将打乱后的数据集分割为训练集和测试集,训练集为前120行,测试集为后30行
x_train = x_data[:-30]
y_train = y_data[:-30]
x_test = x_data[-30:]
y_test = y_data[-30:]

3、转换数据类型格式,匹配特征数据和标签数据,设置训练可变参数,在输入到tf中进行计算之前要先把np格式的数据转化成tf格式。同时输入的数据最好进行分组处理,这样可以调整数据的吞吐量,适配不同性能的设备。同时由于数据简单,只构建了一个四输入的单层神经元模型。

# 转换x的数据类型,否则后面矩阵相乘时会因数据类型不一致报错
x_train = tf.cast(x_train, tf.float32)
x_test = tf.cast(x_test, tf.float32)

# from_tensor_slices函数使输入特征和标签值一一对应。(把数据集分批次,每个批次batch组数据)
train_db = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(32)
test_db = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(32)

# 生成神经网络的参数,4个输入特征故,输入层为4个输入节点;因为3分类,故输出层为3个神经元
# 用tf.Variable()标记参数可训练
# 使用seed使每次生成的随机数相同(方便教学,使大家结果都一致,在现实使用时不写seed)
w1 = tf.Variable(tf.random.truncated_normal([4, 3], stddev=0.1, seed=1))
b1 = tf.Variable(tf.random.truncated_normal([3], stddev=0.1, seed=1))

4、初始化超参数,一般来说,常用到的超参数有学习率lr、迭代次数epoch、分组大小batch_size

lr = 0.1  # 学习率为0.1
train_loss_results = []  # 将每轮的loss记录在此列表中,为后续画loss曲线提供数据
test_acc = []  # 将每轮的acc记录在此列表中,为后续画acc曲线提供数据
epoch = 500  # 循环500轮
loss_all = 0  # 每轮分4个step,loss_all记录四个step生成的4个loss的和

5、开始训练,训练过程中的主要流程为:开始迭代 > 根据bach分组加载数据 > 开始记录梯度信息 > 神经元(层)执行计算 > 计算结果softmax > 独热码转换 > 计算loss > 求导计算梯度 > 跟新参数 > 继续返回迭代循环

# 训练部分
for epoch in range(epoch):  #数据集级别的循环,每个epoch循环一次数据集
    for step, (x_train, y_train) in enumerate(train_db):  #batch级别的循环 ,每个step循环一个batch
        with tf.GradientTape() as tape:  # with结构记录梯度信息
            y = tf.matmul(x_train, w1) + b1  # 神经网络乘加运算
            y = tf.nn.softmax(y)  # 使输出y符合概率分布(此操作后与独热码同量级,可相减求loss)
            y_ = tf.one_hot(y_train, depth=3)  # 将标签值转换为独热码格式,方便计算loss和accuracy
            loss = tf.reduce_mean(tf.square(y_ - y))  # 采用均方误差损失函数mse = mean(sum(y-out)^2)
            loss_all += loss.numpy()  # 将每个step计算出的loss累加,为后续求loss平均值提供数据,这样计算的loss更准确
        # 计算loss对各个参数的梯度
        grads = tape.gradient(loss, [w1, b1])

        # 实现梯度更新 w1 = w1 - lr * w1_grad    b = b - lr * b_grad
        w1.assign_sub(lr * grads[0])  # 参数w1自更新
        b1.assign_sub(lr * grads[1])  # 参数b自更新

6、训练的同时在每个epoch中进行一次测试(实际训练时,若果测试输出需要耗时较高,可以每10次进行一次测试),测试时首先执行神经元(层)计算,不用进行反向传播,所以只需要根据softmax的输出匹配到对应的便签上并统计正确值的数量。

# 测试部分
    # total_correct为预测对的样本个数, total_number为测试的总样本数,将这两个变量都初始化为0
    total_correct, total_number = 0, 0
    for x_test, y_test in test_db:
        # 使用更新后的参数进行预测
        y = tf.matmul(x_test, w1) + b1
        y = tf.nn.softmax(y)
        pred = tf.argmax(y, axis=1)  # 返回y中最大值的索引,即预测的分类
        # 将pred转换为y_test的数据类型
        pred = tf.cast(pred, dtype=y_test.dtype)
        # 若分类正确,则correct=1,否则为0,将bool型的结果转换为int型
        correct = tf.cast(tf.equal(pred, y_test), dtype=tf.int32)
        # 将每个batch的correct数加起来
        correct = tf.reduce_sum(correct)
        # 将所有batch中的correct数加起来
        total_correct += int(correct)
        # total_number为测试的总样本数,也就是x_test的行数,shape[0]返回变量的行数
        total_number += x_test.shape[0]
    # 总的准确率等于total_correct/total_number
    acc = total_correct / total_number
    test_acc.append(acc)

7、输出结果,可视化训练过程

# 绘制 loss 曲线
plt.title('Loss Function Curve')  # 图片标题
plt.xlabel('Epoch')  # x轴变量名称
plt.ylabel('Loss')  # y轴变量名称
plt.plot(train_loss_results, label="$Loss$")  # 逐点画出trian_loss_results值并连线,连线图标是Loss
plt.legend()  # 画出曲线图标
plt.show()  # 画出图像

# 绘制 Accuracy 曲线
plt.title('Acc Curve')  # 图片标题
plt.xlabel('Epoch')  # x轴变量名称
plt.ylabel('Acc')  # y轴变量名称
plt.plot(test_acc, label="$Accuracy$")  # 逐点画出test_acc值并连线,连线图标是Accuracy
plt.legend()
plt.show()

最后的输出结果:
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/325680.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android APP开发集成微信登陆流程(手把手新手版)

本文比较适合新手玩家,老玩家就不要看了 昨天整了下微信登陆,乍一看官方文档还有点难懂!遂自己整理了下流程,给大家参考参考。 官方文档链接:准备工作 | 微信开放文档微信开发者平台文档https://developers.weixin.q…

智能代码:生成式 AI 在软件开发中的革命性角色

想象一下,在智能手机革命性地改变了我们的生活之后,现在轮到了生成式 AI 在软件开发领域掀起风暴。你知道吗,如果代码能自己编写自己,这将是多么惊人的一步?这就好比我们现在能轻松地用手机应用管理日常生活一样&#…

AI大模型预先学习笔记三:使用Assistants API快速搭建领域专属AI助手

文章目录 一、什么是AssistantsAPI二、为什么用AssistantsAPI三、Demo展示及能力介绍四、Demo框架及具体实现五、从Demo到实际应用的Gap 一、什么是AssistantsAPI 介绍 OpenAI的第一手发布者API文档,也就是相当于GPT的API 二、为什么用AssistantsAPI 优点 够全、…

vue 渲染数组,拖拽排序,渲染同一个数组拖拽排序不影响其他选中行状态

当我们能够设置单行状态改变的时候,那么肯定可以拿到选中的当前行的id或者下标index。 只要设定一个初始化值在拖拽开始的时候重新赋值,然后再处理选中状态的时候进行判断即可。 前期写的时候没有注意到这个问题,可以看这个文章。 在复测的时…

解析HTTP响应的JSON数据

解析HTTP响应的JSON数据是许多Web开发任务中的常见需求。在Go语言中,可以使用标准库中的encoding/json包来轻松解析JSON数据。下面我将详细介绍如何解析HTTP响应的JSON数据。 首先,确保你已经发送了一个HTTP请求并获取到了响应。然后,你可以…

变电站综合自动化监控系统在某物流园35kV变电站中应用

摘 要:Acrel-1000变电站综合自动化系统,是我司根据电力系统自动化及无人值守的要求,总结国内外的研究和生产的先进经验,专门研制出的新一代电力监控系统。本系统具有保护、遥测、遥信、遥脉、遥调、遥控功能,可实现无人…

博途PLC增量式PID和脉冲轴组合控制阀门开度(算法介绍)

这篇博客我们以S7-1200PLC平台来举例,介绍我们的PID闭环控制器如何控制脉冲轴实现阀门角度控制。SMART PLC PID控制器控制伺服驱动器实现关节角度控制详细内容请参考下面文章: https://rxxw-control.blog.csdn.net/article/details/129658364https://rxxw-control.blog.csdn…

HNU-计算机网络-实验5(自选)-安全相关编程实验

计算机网络 课程综合实验安全相关编程实验(RUST) 计科210X 甘晴void 202108010XXX 【前言】 这个《课程综合实验》是21级开始新加的实验,之前都没有。具体的可以看实验指导书,是用的19级同学的毕设。我完成的这个实验需要一点点R…

新手小白如何正确做抖音小店无货源?这六个步骤,新手建议收藏!

大家好,我是电商花花。 新手想要做好抖音小店,就要有一个正确的做店方法,很多新手小白在做店的时候踩坑,或者做是不起来,然后开通后没啥订单销量。 下面我就把正确的抖音小店做店方法详细的流程分享出来,…

UniApp+Vue智慧工地信息化管理云平台源码(支持多工地使用)

智慧工地建设的意义 1、提高工程效率 智慧工地可以通过数字化手段,将工地的各个方面进行数字化存储和管理,从而实现的实时监测和共享。这可以大大提高工程的效率,减少工程中的人工干预,并且可以为后续的工程维护和升级提供便利。…

1月16日代码随想录最大二叉树

654.最大二叉树 给定一个不重复的整数数组 nums 。 最大二叉树 可以用下面的算法从 nums 递归地构建: 创建一个根节点,其值为 nums 中的最大值。递归地在最大值 左边 的 子数组前缀上 构建左子树。递归地在最大值 右边 的 子数组后缀上 构建右子树。 返回 nums 构…

【分布式技术】监控平台zabbix对接grafana,优化dashboard

目录 第一步:在zabbix server服务端安装grafana,并启动 第二步: 访问http://ip:3000/login 第三步:创建数据源 第四步:导入dashboard模板 ps:自定义创建新面板 第一步:在zabbix server服务…

【Rust】get_local_info 0.2.4发布

发布0.2.4,修正0.2.3([我的Rust库更新]get_local_info 0.2.3-CSDN博客)中存在的峰值算法bug,现已提交力扣并通过,耗时0ms

数仓建模理论与规范

一、 模型架构设计目标 数据仓库的定义 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合&am…

❤ Uniapp使用一(文档和 API 篇)

❤ Uniapp使用一(文档和 API 篇) 一、介绍 uni-app官网:https://uniapp.dcloud.io/api/media/image?idpreviewimage 微信小程序官网:https://developers.weixin.qq.com/miniprogram/dev/api/media/image/wx.previewImage.html …

AI嵌入式K210项目(4)-FPIOA

文章目录 前言一、FPIOA是什么?二、FPIOA代码分析总结 前言 磨刀不误砍柴工,在正式开始学习之前,我们先来了解下K210自带的FPIOA,这个概念可能与我们之前学习STM32有很多不同,STM32每个引脚都有特定的功能&#xff0c…

Spring基于AOP(面向切面编程)开发

概述 AOP为Aspect Oriented Programming的缩写,意为:面向切面编程,通过预编译方式和运行期间动态代理实现程序功能的统一维护的一种技术。AOP是OOP的延续,是软件开发中的一个热点,也是Spring框架中的一个重要内容&…

通过旋转机械臂,将机械臂上相机拍摄图像的任意点移动至图像中心的方法

计算原理 角度计算 相机CCD大小固定,即相机成像平面大小固定,相机视场角(FOV)仅由相机焦距F决定; 因此,定焦相机的FOV大小固定,通过上图可以看出相机视场角的计算公式为: FOV 2*atan(w/2f&…

Windows 下 使用 VSCode 和 arm-none-eabi 编译Linux代码时 mkdir 命令出错

编译环境: IDE: VSCode 交叉编译器:arm-none-eabi make 命令:Mingw-w64 GCC for Windows 64 源代码管理:git 交叉编译器版本和安装目录: E:\work_soft\gcc-arm-none-eabi-10.3-2021.10 Mingw 版本和目录:E:\work_…

C++ 设计模式之外观模式

【声明】本题目来源于卡码网(题目页面 (kamacoder.com)) 【提示:如果不想看文字介绍,可以直接跳转到C编码部分】 【简介】什么是外观模式 外观模式Facade Pattern , 也被称为“⻔⾯模式”,是⼀种结构型设计模式&#…