一、学习背景
由于工作的原因,需要开展人工智能相关的研究,虽然不用参与实际研发,但在项目实施过程中发现,人工智能的项目和普通程序开发项目不一样,门槛比较高,没有相关基础没法搞清楚人力、财力如何投入,很难合理管控成本以及时间。为搞清楚情况,老年博主决定一步一个脚印,好好自学。在写本文时,博主已学到一定阶段了,趁有时间,通过博文记录下来,以免遗忘。
二、学习准备
常年的学习告诉我们,一门学科要快速入门,主流方式是看网络教学视频,B站上有很多优质视频。但博主还是习惯静静看书,通过CSDN读书频道浏览一并人工智能入门书籍,最后选择了一本合适自己学习习惯的书,书名为
《神经网络与深度学习:Python+Keras+TensorFlow》
,2019年出版。PS:2023年才学,确实落后了呀🌝。
看书先看目录,结合自己的学习需求,从目录来看,需要重点看的是以下几点:
第一章:神经网络初体验
这章主要是介绍神经网络应用的案例,改变读者固有的一些思维方式,了解人工智能是怎么运作的,不仅是代码层面,看完还是很有收获的。
第二章&第三章:深度学习中的微积分基础和线性代数基础
第二、三两章非常重要,主要介绍神经网络的数理基础。以前在大学总认为微积分和线性代数和自己没啥关系,看完本章后,感觉这些数理知识学的远远不够,内心默默感叹,数学真是科技进步之本。第二章核心知识点主要是
函数求导、间套函数的链式求导法则、多变量函数与偏导数、求函数最小值
,第三章的核心知识点主要是矩阵运算、张量
。
第四章:神经网络的理论基础
本章是本书的核心,主要介绍人工智能的核心算法,包括
激活函数、神经网络中的矩阵运算、反向传播算法
和梯度下降算法
,必须认真看懂弄透,不然后面几章估计就无法阅读了。
第五章:用Python从零实现识别手写数字的神经网络
本章主要介绍如何使用Python代码来实现第四章算法,以加深神经网络算法的认识,同时提高动手能力,博主反复把书中代码练习数遍,才逐渐理解其中某些细节和原理。本章的核心内容是
使用Python代码构建神经网络框架、使用Python代码实现网络迭代训练功能、使用Pyhon代码识别手写数字图片
。
第七章:使用神经网络实现机器视觉识别
由于博主想入门的是视觉类识别技术,所以主要看了第七章,往后的章节没有细看。本章逐节揭秘卷积网络的底层原理,核心内容主要包括
卷积神经网络应用、预训练卷积神经网络应用、卷积神经网络原理
。
三、自己完整写完第一份图像识别代码
本书第七章的7.2小节为从零开始构造一个识别猫、狗图片的卷积网络
,是一个图像识别入门例子,难度不高,适合博主这种小白一步一步根书敲代码。当然,复刻书中代码的过程是曲折的,运行时经常碰到各种报错,书本也有不少笔误之处。经过反复调试程序和查阅报错相关资料,逐项问题解决后,图像识别程序终于成功运行起来。
接下来,将介绍本小白是如何一步步把程序跑起来的,真是好多坑o(╥﹏╥)o。
第一步:把书中代码直接Copy到IDE尝试运行
这步操作简单,把以下完整代码Copy到IDE,本人用的是Pycharm,点击运行。本文使用的代码经测试可以运行,而且每一步都添加了自己写的备注,可能比原书还清晰。
import os
os.environ["CUDA_VISIBLE_DEVICES"]="0"
# 加载训练数据集和测试数据集
# 1.拼接数据集的地址
base_dir = 'D:\RGZN\第7章\cat-and-dog'
train_cats_dir = os.path.join(base_dir, 'training_set/cats')
train_dogs_dir = os.path.join(base_dir, 'training_set/dogs')
test_cats_dir = os.path.join(base_dir, 'test_set/cats')
test_dogs_dir = os.path.join(base_dir, 'test_set/dogs')
# 2.显示两个数据集中的图片数量
print('total trainning cat images: ', len(os.listdir(train_cats_dir)))
print('total trainning dog images: ', len(os.listdir(train_dogs_dir)))
print('total testing cat images: ', len(os.listdir(test_cats_dir)))
print('total testing dog images: ', len(os.listdir(test_dogs_dir)))
from keras import layers
from keras import models
model = models.Sequential()
# 3.Sequential是用于构建和训练顺序模型
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(150, 150, 3)))
# 4.32个神经元,卷积核大小为3*3,激活函数为relu
# 5.150px*150px的图片,RGB(255,255,255)彩色像素,所以接入层的格式是(150,150,3)
model.add(layers.MaxPooling2D((2, 2)))
# 6.2D最大池化层,池化窗口大小为(2,2)
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
# 7.64个神经元,卷积核大小为3*3,激活函数为relu
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Flatten())
# 8.将上面网络输出的多维数组压平成一维数组
model.add(layers.Dense(512, activation='relu'))
# 9.512个神经元,全连接,激活函数为relu
model.add(layers.Dense(1, activation="sigmoid"))
# 10.网络只要做出判断,因此最后一层只需要一个神经元,激活函数sigmoid,根据它输出的值是否大于0.5来决定图片是猫还是狗
model.compile(loss='binary_crossentropy', optimizer='rmsprop', metrics=['acc'])
# 11.model.compile()函数被设计为一个编译器,用于将模型的图形结构定义与计算引擎进行链接,以实现优化、损失函数的选择和训练过程的配置
model.summary()
from keras import preprocessing
from keras.utils import image_utils
import numpy as np
# 12.将图片地址加载到程序path_cats和path_dogs中
path_cats = []
for path in os.listdir(train_cats_dir):
if '.jpg' in path:
path_cats.append(os.path.join(train_cats_dir, path))
path_dogs = []
for path in os.listdir(train_dogs_dir):
if '.jpg' in path:
path_dogs.append(os.path.join(train_dogs_dir, path))
# 13.将图片转换为(150,150)格式的二维数组
training_set = np.zeros((6000, 150, 150, 3), dtype='float32')
# 14.np.zeros() 函数是 NumPy 库中的一个非常基础和广泛使用的函数,它的主要功能是创建一个特定形状和类型的新数组,其中所有元素的初始值都为 0。
train_dog_imgs = 3000
train_cat_imgs = 3000
for i in range(0, train_dog_imgs):
img = image_utils.load_img(path_dogs[i], target_size=(150, 150))
# 15.preprocessing,keras的预处理类
training_set[i] = image_utils.img_to_array(img)
for j in range(0, train_cat_imgs):
img = image_utils.load_img(path_cats[j], target_size=(150, 150))
training_set[train_dog_imgs + j] = image_utils.img_to_array(img)
# 16.准备2000张图片作为网络训练校验集
validation_set = np.zeros((2000, 150, 150, 3), dtype='float32')
validation_dog_imgs = 1000
validation_cat_imgs = 1000
# 17.其中用于校验的狗图片1000张,校验猫的图片1000张
for i in range(validation_dog_imgs):
path = path_dogs[i + train_dog_imgs]
img = image_utils.load_img(path, target_size=(150, 150))
validation_set[i] = image_utils.img_to_array(img)
for j in range(validation_cat_imgs):
path = path_cats[i + train_cat_imgs]
img = image_utils.load_img(path, target_size=(150, 150))
validation_set[j + validation_dog_imgs] = image_utils.img_to_array(img)
train_labels = np.zeros((3000,))
# 18.对前面3000张狗图片打标签0
train_labels = np.concatenate((train_labels, np.ones(3000, )))
# 19.对后面3000张猫图片打标签1,并进行合并操作,形成6000张标签
validation_labels = np.zeros((1000,))
# 20.对前面1000只狗的校验图片打标签0
validation_labels = np.concatenate((validation_labels, np.ones(1000, )))
# 21.对后面1000只猫的校验图片打标签1,并进行合并操作,形成2000张标签
train_datagen = preprocessing.image.ImageDataGenerator(rescale=1. / 255)
# 22.将图片像素点转换到[0,1]之间,可以使用keras.preprocessing.image.ImageDataGenerator生成器对数据进行变换和增强
train_generator = train_datagen.flow(training_set, train_labels, batch_size=32)
# 23.根据生成器设置的相关参数,调用flow来执行,batch_size:整数或None。每个梯度更新用到的的样本数量。
validation_generator = train_datagen.flow(validation_set, validation_labels, batch_size=32)
history = model.fit(train_generator, steps_per_epoch=100, epochs=30,
validation_steps=50, validation_data=validation_generator)
# 24.启动网络训练,循环训练30次,每次训练从数据生成器中获取100张图片,校验时从生成器中获取50张图片
import matplotlib.pyplot as plt
# 25.获取训练结果,例如训练数据准确率、校验数据准确率等
acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(1, len(acc) + 1)
# 26.将训练过程中的准确性变化绘制出来
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()
plt.figure()
# 27,将训练过程中的损失变化绘制出来
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()
第二步:发现依赖包未导入,根据报错导入相关的包
copy代码后会发现各种包比如keras等未导入,凡提示没有的,使用pip安装导入即可。
第三步:发现数据集没下载,根据书中链接下载
💫第一坑!这里发现原书地址不可用,经过大量网站检索,本小白终于完成数据集下载,但在写本文章时,该书官网貌似出问题了,晕倒_(¦3」∠)_。由于数据集太大,后期再放下载链接。
以下是数据集(cat-and-dog)截图:
第四步:模型训练
💫第二坑!缺少数据集的问题解决后,程序便可正常运行。谁知,笔记本第十代 intel i7 CPU跑了大半天才出训练结果,遂改GPU试试,结果手提没有英伟达独显,后来又研究外接显卡,终于解决CPU训练太慢的问题。这
笔记本电脑雷电3接口外接二手GTX1060显卡跑人工智能深度学习训练模型解决方案
够博主另外写一篇长文了,外接显卡方案从购置、安装、调式到运行,前前后后花了约三周时间,这里就不作详细解释了,最后结论是此方案可行,比CPU快几十倍。
若需使用电脑GPU,在程序开头加入以下代码即可。
os.environ["CUDA_VISIBLE_DEVICES"]="0"
除此之外,还有显卡驱动、CUDA、cuDNN
等要安装,相关安装教程可参考以下链接。
《在keras中使用gpu加速训练模型》 👈这篇文章教你如何下载和安装相关驱动程序。
《CUDA11.8安装tensorflow2.12找不到GPU问题解决办法》👈这篇文章教你如何保证各种驱动版本一致。
四、模型训练效果
模型训练效果直接上图,效果如下:
[1]陈屹. 神经网络与深度学习实战:Python+Keras+TensorFlow[M]. 北京:机械工业出版社,2019.