他来了,他来啦,后面歌词忘了~~~~~
开谈深度学习,填上一点小坑,可又再次开掘大洞 -.-b
目录
1. 定义
2. 深度学习的发展历史和典型事件
3. 深度学习常用算法
3.1. 卷积神经网络(CNN)
3.1.1. 算法形成过程与运行原理
3.1.1.1. 基本结构
3.1.1.2. 前向传播算法
3.1.1.3. 前向传播算法示例-图像预处理
3.1.1.4. 前向传播算法示例-卷积计算
3.1.1.5. 前向传播算法示例-池化操作
3.1.1.6. 前向传播算法示例-全连接层处理
3.1.1.7. 前向传播算法示例-输出层
3.1.2. 整体算法示例
3.2. 循环神经网络(RNN)
3.3. 长短期记忆网络(LSTM)
3.4. 生成对抗网络(GAN)
3.5. 自编码器(AE)
3.6. 深度信念网络(DBN)
3.7. Transformer
1. 定义
深度学习(Deep Learning)是机器学习的一个子领域,它依赖于神经网络的结构。
深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
简单来说,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。
它的最终目标是让机器能够识别和解释各种数据,如文字、图像和声音等,从而实现人工智能的目标。
与传统的机器学习技术相比,深度学习可以自动提取数据的特征,而无需人工设计和选择特征。
这一特点使得深度学习在处理复杂和大规模的数据时具有显著的优势。
通过深度学习,机器可以模仿人类的视听和思考等活动(假装他是一个人类,其实谁还不是个宝宝),解决复杂的模式识别难题。
2. 深度学习的发展历史和典型事件
深度学习发展也算是历史老玩家了,其可以大致归纳为以下几个阶段:
萌芽期(20世纪40年代至80年代):深度学习的概念起源于20世纪40年代,当时神经科学家Warren McCulloch和数学家Walter Pitts提出了神经网络的概念。在20世纪50年代,心理学家Frank Rosenblatt提出了感知机的概念,这是最早的深度学习模型之一。然而,由于当时计算机科学的限制和数据的不足,深度学习的发展受到了制约。
起步期(20世纪80年代至90年代):随着计算机科学的飞速发展,人工神经网络的研究和应用得到了推动。这个时期出现了许多著名的深度学习模型,如反向传播算法和卷积神经网络等,这些模型逐渐涉及到图像识别、语音识别和自然语言处理等领域。
发展期(20世纪90年代至2010年):随着互联网的普及和数据的增加,深度学习逐渐得到了更多的关注和研究。出现了许多重要的深度学习模型和技术,如堆叠式自编码器、循环神经网络和长短时记忆网络等。这些模型的应用范围不断扩大,涉及到自然语言处理、语音识别和计算机视觉等领域。
成熟期(2011年至今):从2011年开始,深度学习进入了成熟期,出现了许多重要的研究成果和技术创新,如批量标准化、残差网络和注意力机制等。这些技术和方法的应用使得深度学习在许多领域中都取得了显著的进展,如自然语言处理、计算机视觉和医疗诊断等。
3. 深度学习常用算法
在深度学习领域,常用的算法包括:
3.1. 卷积神经网络(CNN)
卷积神经网络(Convolutional Neural Networks, CNNs)是深度学习中的一种重要模型,特别适用于图像处理和和视频、层级结构数据等具有网格结构的数据,在图像识别、物体检测和视频分析等领域有广泛应用。
3.1.1. 算法形成过程与运行原理
3.1.1.1. 基本结构
- 卷积神经网络的基本结构包括卷积层、池化层和全连接层。
- 卷积层用于提取特征,通过多组卷积核与输入图像进行卷积运算,得到不同的特征图。
- 池化层进行降采样操作,降低特征图的分辨率,减少模型的计算复杂度,并有效避免过拟合。
- 全连接层将卷积层和池化层输出的特征图转化为分类结果。
3.1.1.2. 前向传播算法
- 图像预处理:包括图像归一化、色彩空间转换等操作。
- 卷积计算:将处理后的图像送入卷积层,通过卷积核进行特征提取。卷积计算可用公式表示: 其中 是卷积输出结果, 是图像中的值,是卷积核权重,是偏置。
- 池化操作:对卷积后的特征图进行降采样,通常使用最大值池化或平均值池化。
- 全连接层处理:池化后的结果送入全连接层,通过权重矩阵和偏置进行处理,产生输出结果。
- 输出层:通常使用softmax函数估计不同类别的概率。
3.1.1.3. 前向传播算法示例-图像预处理
前向传播算法中的图像预处理通常包括图像的归一化、色彩空间的转换、裁剪、缩放等操作,以便使图像数据适应神经网络模型的输入要求。下面分别给出Python和C++的图像预处理示例。
Python 示例
在Python中,我们通常使用OpenCV
或PIL
(Python Imaging Library,现在称为Pillow
)等库来进行图像预处理。以下是一个使用Pillow
进行图像预处理的简单示例:
from PIL import Image
import numpy as np
# 加载图像
image_path = 'path_to_your_image.jpg'
image = Image.open(image_path)
# 缩放图像到指定大小(例如:224x224)
resized_image = image.resize((224, 224))
# 将图像转换为numpy数组
image_array = np.array(resized_image)
# 归一化图像数据到[0, 1]范围
normalized_image = image_array / 255.0
# 如果需要,可以将图像数据转换为浮点型
normalized_image = normalized_image.astype(np.float32)
# 如果模型需要,可以扩展图像维度以匹配模型的输入形状(例如:添加批次维度和通道维度)
preprocessed_image = np.expand_dims(normalized_image, axis=0) # 添加批次维度
if len(preprocessed_image.shape) == 3:
preprocessed_image = np.expand_dims(preprocessed_image, axis=-1) # 添加通道维度(对于灰度图)
# 现在preprocessed_image可以作为神经网络的输入了
C++ 示例
在C++中,我们通常使用OpenCV
库来进行图像预处理。以下是一个使用OpenCV
进行图像预处理的简单示例:
#include <opencv2/opencv.hpp>
#include <iostream>
int main() {
// 读取图像
cv::Mat image = cv::imread("path_to_your_image.jpg");
if (image.empty()) {
std::cerr << "Could not open or find the image!" << std::endl;
return -1;
}
// 缩放图像到指定大小(例如:224x224)
cv::Mat resized_image;
cv::resize(image, resized_image, cv::Size(224, 224));
// 归一化图像数据到[0, 1]范围
resized_image.convertTo(resized_image, CV_32F, 1.0 / 255.0);
// 如果模型需要,可以调整图像矩阵的形状以匹配模型的输入(例如:添加批次维度)
// 在C++中,这通常不是必需的,因为你可以直接传递图像的原始数据指针给神经网络库
// 现在resized_image可以作为神经网络的输入了
// 通常,你会将resized_image的数据指针和形状信息传递给神经网络库进行处理
return 0;
}
请注意,在实际应用中,你需要根据你的神经网络模型的输入要求来调整图像预处理步骤。例如,如果你的模型是在RGB色彩空间上训练的,那么你需要确保输入的图像也是RGB格式的。
此外,如果你的模型期望的输入是特定的数据布局(例如,“批次大小 x 通道数 x 高度 x 宽度”),你可能需要在传递图像数据给模型之前对其进行相应的重塑或转换。
3.1.1.4. 前向传播算法示例-卷积计算
前向传播算法中的卷积计算是卷积神经网络(CNN)的核心操作之一。下面分别给出Python和C++中进行卷积计算的示例。
Python 示例
在Python中,我们通常使用深度学习框架如TensorFlow或PyTorch来进行卷积计算。以下是一个使用NumPy库手动实现卷积计算的简单示例:
import numpy as np
def convolve2d(image, kernel):
# 获取图像和卷积核的尺寸
image_height, image_width = image.shape
kernel_height, kernel_width = kernel.shape
# 输出特征图的尺寸
output_height = image_height - kernel_height + 1
output_width = image_width - kernel_width + 1
output = np.zeros((output_height, output_width))
# 执行卷积操作
for i in range(output_height):
for j in range(output_width):
output[i, j] = np.sum(image[i:i+kernel_height, j:j+kernel_width] * kernel)
return output
# 示例图像和卷积核
image = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]])
kernel = np.array([[1, 0], [0, 1]])
# 进行卷积计算
feature_map = convolve2d(image, kernel)
print(feature_map)
C++ 示例
在C++中,我们可以使用OpenCV库来进行卷积计算,或者手动实现卷积操作。以下是一个手动实现卷积计算的简单示例:
#include <iostream>
#include <vector>
std::vector<std::vector<double>> convolve2d(const std::vector<std::vector<double>>& image, const std::vector<std::vector<double>>& kernel) {
int image_height = image.size();
int image_width = image[0].size();
int kernel_height = kernel.size();
int kernel_width = kernel[0].size();
int output_height = image_height - kernel_height + 1;
int output_width = image_width - kernel_width + 1;
std::vector<std::vector<double>> output(output_height, std::vector<double>(output_width, 0));
for (int i = 0; i < output_height; ++i) {
for (int j = 0; j < output_width; ++j) {
for (int k = 0; k < kernel_height; ++k) {
for (int l = 0; l < kernel_width; ++l) {
output[i][j] += image[i + k][j + l] * kernel[k][l];
}
}
}
}
return output;
}
int main() {
std::vector<std::vector<double>> image = {{1, 2, 3, 4}, {5, 6, 7, 8}, {9, 10, 11, 12}, {13, 14, 15, 16}};
std::vector<std::vector<double>> kernel = {{1, 0}, {0, 1}};
std::vector<std::vector<double>> feature_map = convolve2d(image, kernel);
// 打印特征图
for (const auto& row : feature_map) {
for (double val : row) {
std::cout << val << " ";
}
std::cout << std::endl;
}
return 0;
}
这两个示例分别展示了如何在Python和C++中手动实现二维卷积操作。
在实际应用中,我们通常会使用优化过的库函数来进行卷积计算,以提高性能和效率。
例如,在Python中可以使用scipy.signal.convolve2d
函数,而在C++中可以使用OpenCV的filter2D
函数。
3.1.1.5. 前向传播算法示例-池化操作
池化操作(Pooling)是卷积神经网络中常用的一种下采样技术,用于减少特征图的维度,同时保留重要特征。最常见的池化操作是最大池化(Max Pooling)和平均池化(Average Pooling)。
最大池化操作的公式可以表示为:对于输入特征图中的每个局部窗口,选择其中的最大值作为输出特征图对应位置的值。具体公式如下:
- 定义局部窗口:设输入特征图为A,其尺寸为M x N。定义一个尺寸为k x k的池化窗口,其中k是池化核的大小。
- 滑动窗口并选择最大值:池化窗口在输入特征图上以步长s滑动。在每个窗口位置,计算窗口内所有元素的最大值。具体计算可以用以下公式表示:
其中,是输入特征图A中位置的元素值,是输出特征图中对应位置的值。这个公式表示在输入特征图上,以为起点,取窗口内的最大值作为输出。
- 形成输出特征图:通过滑动窗口并计算每个窗口内的最大值,最终形成一个新的、尺寸较小的输出特征图。
需要注意的是,在实际应用中,池化操作的步长s和池化核大小k可以根据具体任务进行调整。最大池化操作能够减小特征图的尺寸,同时保留最重要的特征信息,有助于提升模型的鲁棒性和计算效率。
此外,对于边界处理,通常可以采用填充(padding)或者忽略边界区域的方式,以确保池化窗口能够在整个特征图上正确滑动。
以下是在Python和C++中执行最大池化操作的示例。
Python 示例
在Python中,我们通常使用深度学习框架如TensorFlow或PyTorch进行池化操作,但以下是一个使用NumPy手动实现最大池化的简单示例:
import numpy as np
def max_pooling(feature_map, pool_size, stride):
# 获取特征图的尺寸
height, width = feature_map.shape
# 计算池化后的特征图尺寸
pooled_height = (height - pool_size) // stride + 1
pooled_width = (width - pool_size) // stride + 1
pooled_feature_map = np.zeros((pooled_height, pooled_width))
# 执行最大池化操作
for i in range(0, height - pool_size + 1, stride):
for j in range(0, width - pool_size + 1, stride):
patch = feature_map[i:i+pool_size, j:j+pool_size]
pooled_feature_map[i // stride, j // stride] = np.max(patch)
return pooled_feature_map
# 示例特征图
feature_map = np.array([
[1, 3, 2, 4],
[5, 6, 7, 8],
[9, 10, 11, 12],
[13, 14, 15, 16]
])
# 进行最大池化计算,池化窗口大小为2x2,步长为2
pooled_map = max_pooling(feature_map, 2, 2)
print(pooled_map)
C++ 示例
在C++中,我们可以使用OpenCV库中的cv::max
函数辅助进行最大池化操作,或者手动实现。以下是一个手动实现最大池化的简单示例:
#include <iostream>
#include <vector>
#include <algorithm> // for std::max_element
std::vector<std::vector<double>> max_pooling(const std::vector<std::vector<double>>& feature_map, int pool_size, int stride) {
int height = feature_map.size();
int width = feature_map[0].size();
int pooled_height = (height - pool_size) / stride + 1;
int pooled_width = (width - pool_size) / stride + 1;
std::vector<std::vector<double>> pooled_feature_map(pooled_height, std::vector<double>(pooled_width, 0));
for (int i = 0; i < height - pool_size + 1; i += stride) {
for (int j = 0; j < width - pool_size + 1; j += stride) {
double max_val = feature_map[i][j]; // Initialize with the first element in the pooling window
for (int k = i; k < i + pool_size; ++k) {
for (int l = j; l < j + pool_size; ++l) {
max_val = std::max(max_val, feature_map[k][l]);
}
}
pooled_feature_map[i / stride][j / stride] = max_val;
}
}
return pooled_feature_map;
}
int main() {
std::vector<std::vector<double>> feature_map = {
{1, 3, 2, 4},
{5, 6, 7, 8},
{9, 10, 11, 12},
{13, 14, 15, 16}
};
// 进行最大池化计算,池化窗口大小为2x2,步长为2
std::vector<std::vector<double>> pooled_map = max_pooling(feature_map, 2, 2);
// 打印池化后的特征图
for (const auto& row : pooled_map) {
for (double val : row) {
std::cout << val << " ";
}
std::cout << std::endl;
}
return 0;
}
这两个示例分别展示了如何在Python和C++中手动实现最大池化操作。在实际应用中,为了性能和易用性,我们通常会使用深度学习框架或图像处理库(如OpenCV)中提供的池化函数。
最大池化的优点和缺点可以归纳如下:
优点:
-
保留显著特征:最大池化能够提取每个池化窗口中的最大值,因此对于特征显著性较高的部分能够更好地保留。这一特点使得最大池化在图像处理中特别有用,因为它可以有效地突出图像中的关键特征,如边缘和纹理。
-
降低维度和计算量:通过减少特征图的尺寸,最大池化能够降低模型的计算复杂度和参数数量,从而提高计算效率。这对于处理大规模图像数据或构建更深层次的网络结构时尤为重要。
-
位置不变性:最大池化对输入特征图的小平移或略微变形具有一定的鲁棒性。这意味着即使图像中的目标物体发生轻微移动或形变,模型仍然能够识别出它们。
缺点:
-
信息丢失:最大池化在提取每个池化窗口中的最大值时,会丢弃非最大值的信息。这可能导致一些细节信息的损失,特别是在需要精细分类或识别的任务中,这种信息丢失可能会影响模型的性能。
-
过度抽象:在多层网络中连续使用最大池化可能导致信息过度抽象。随着网络层数的增加,最大池化可能会使一些细微的特征被忽略,从而导致模型对某些细节的感知能力下降。
综上所述,最大池化在保留显著特征、降低维度和计算量以及提供位置不变性方面具有优势,但同时也存在信息丢失和过度抽象的风险。在实际应用中,需要根据具体任务的需求来权衡这些优缺点。
3.1.1.6. 前向传播算法示例-全连接层处理
前向传播算法在全连接层(也称为密集层或线性层)中的处理主要涉及到矩阵乘法。以下是在Python和C++中实现全连接层前向传播的示例。
Python 示例
在Python中,我们通常使用NumPy库来进行矩阵运算。以下是一个简单的全连接层前向传播示例:
import numpy as np
def fully_connected_forward(X, W, b):
"""
全连接层的前向传播
:param X: 输入数据,形状为 (batch_size, input_dim)
:param W: 权重矩阵,形状为 (input_dim, output_dim)
:param b: 偏置项,形状为 (output_dim,)
:return: 输出数据,形状为 (batch_size, output_dim)
"""
Z = np.dot(X, W) + b # 矩阵乘法和加法
A = 1 / (1 + np.exp(-Z)) # 使用sigmoid激活函数
return A
# 示例输入、权重和偏置
X = np.array([[1, 2, 3], [4, 5, 6]]) # 假设batch_size=2, input_dim=3
W = np.array([[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]]) # input_dim=3, output_dim=2
b = np.array([0.1, 0.2]) # output_dim=2
# 执行全连接层的前向传播
A = fully_connected_forward(X, W, b)
print(A)
C++ 示例
在C++中,我们可以使用Eigen库来进行矩阵运算。以下是一个简单的全连接层前向传播示例:
#include <iostream>
#include <Eigen/Dense>
using namespace Eigen;
using namespace std;
MatrixXd fully_connected_forward(const MatrixXd& X, const MatrixXd& W, const VectorXd& b) {
// 矩阵乘法和加法
MatrixXd Z = X * W;
Z.colwise() += b; // 将偏置加到每一列上
// 使用sigmoid激活函数
return (1.0 / (1.0 + (-Z).array().exp())).matrix();
}
int main() {
// 示例输入、权重和偏置
MatrixXd X(2, 3); // 假设batch_size=2, input_dim=3
X << 1, 2, 3,
4, 5, 6;
MatrixXd W(3, 2); // input_dim=3, output_dim=2
W << 0.1, 0.2,
0.3, 0.4,
0.5, 0.6;
VectorXd b(2); // output_dim=2
b << 0.1, 0.2;
// 执行全连接层的前向传播
MatrixXd A = fully_connected_forward(X, W, b);
// 打印输出
cout << "Output:" << endl << A << endl;
return 0;
}
请注意,这两个示例都使用了sigmoid激活函数。在实际应用中,你可能会使用其他激活函数,如ReLU、tanh等。你可以根据需要替换激活函数的实现。
另外,为了编译和运行C++示例,你需要安装Eigen库,并在编译时链接到该库。Eigen是一个纯头文件的C++模板库,用于线性代数、矩阵和向量操作,非常适合进行数值计算。
3.1.1.7. 前向传播算法示例-输出层
在输出层,我们通常采用softmax函数估计不同类别的概率。
softmax函数定义
softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能够将一个含有任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在(0,1)之间,且所有元素的和为1。这一特性使得softmax函数在表示概率分布时非常有用。
softmax函数公式
给定一个K维输入向量z,softmax函数将其转换为概率分布的公式为:
其中,是输入向量z的第i个元素,而分母是对所有元素的求和,以确保输出向量的所有元素之和为1。
softmax函数的应用
- 多分类问题:softmax函数广泛应用于多分类问题中,如逻辑回归、线性判别分析以及神经网络等。在这些模型中,softmax函数用于将模型的原始输出转换为对应于每个类别的概率,从而进行类别预测。
- 图像分类与自然语言处理:在图像分类任务中,softmax函数帮助我们将图像分类到不同的类别,并给出每个类别的概率。此外,在自然语言处理领域,如文本分类和情感分析等任务中,softmax函数也发挥着重要作用。
softmax函数的数学性质
- 平移不变性:softmax函数对输入的平移不敏感,即输入实数的平移不会改变其输出值。
- 概率性质:softmax函数的输出满足经典的概率性质,即输出值非负且总和为1。
- 对称性和可导性:softmax函数保持对称性和可导性,使得输出可以容易地调整,并且其可导性有助于输出更快地收敛于最优值。
softmax函数与交叉熵损失函数
在深度学习中,softmax函数经常与交叉熵损失函数联合使用,用于评估模型预测的概率分布与真实概率分布之间的差异。这种组合在多分类问题中表现出色,有助于提高模型的准确性和泛化能力。
在使用softmax函数作为输出层的激活函数时,我们通常处理的是多分类问题。softmax函数会将输出转换为概率分布,即所有类别的概率之和为1。以下是使用softmax函数在Python和C++中进行前向传播的示例。
Python 示例
import numpy as np
def softmax(x):
"""
计算softmax函数
:param x: 输入数组
:return: softmax函数的结果
"""
exps = np.exp(x - np.max(x)) # 减去最大值是为了防止数值溢出
return exps / np.sum(exps)
def output_layer_forward(Z, activation_func=softmax):
"""
输出层的前向传播
:param Z: 输出层的输入,形状通常为 (batch_size, num_classes)
:param activation_func: 激活函数,默认为softmax
:return: 输出层的输出,即各类别的概率分布
"""
return activation_func(Z)
# 示例输出层的输入
Z = np.array([[1, 2, 3], [4, 5, 6]]) # 假设batch_size=2, num_classes=3
# 执行输出层的前向传播
A = output_layer_forward(Z)
print("输出层的概率分布:")
print(A)
C++ 示例
在C++中,我们可以再次利用Eigen库来计算softmax函数。
#include <iostream>
#include <Eigen/Dense>
#include <cmath>
using namespace Eigen;
using namespace std;
MatrixXd softmax(const MatrixXd& x) {
MatrixXd exps = x.array().exp();
MatrixXd sums = exps.rowwise().sum();
return (exps.array() / sums.array()).matrix();
}
MatrixXd output_layer_forward(const MatrixXd& Z) {
return softmax(Z);
}
int main() {
// 示例输出层的输入
MatrixXd Z(2, 3); // 假设batch_size=2, num_classes=3
Z << 1, 2, 3,
4, 5, 6;
// 执行输出层的前向传播
MatrixXd A = output_layer_forward(Z);
// 打印输出层的概率分布
cout << "输出层的概率分布:" << endl << A << endl;
return 0;
}
请注意,在实际应用中,为了防止softmax函数中的数值溢出,通常会在计算指数之前从输入中减去最大值。在上面的Python示例中,我们已经包含了这一步骤,但在C++示例中为了简洁而省略了。在处理大规模数据时,这一步骤变得尤为重要。
在C++示例中,我们假设所有的输入值都在一个合理的范围内,不会导致数值溢出。如果需要处理可能导致数值溢出的输入,请在计算softmax之前先减去每行(或每列,取决于数据的布局)的最大值。
另外,编译和运行C++代码需要安装Eigen库,并在编译时正确配置。
3.1.2. 整体算法示例
卷积神经网络的Python示例
在Python中,可以使用Keras: Deep Learning for humans等深度学习框架实现卷积神经网络。以下是一个简单的示例,使用CIFAR-10数据集:
from keras.datasets import cifar10
from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
# 加载数据
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
# 构建模型
model = Sequential()
model.add(Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(64, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dense(10, activation='softmax'))
# 编译模型并训练...
# 后面逐步加入这块代码
卷积神经网络的C++示例
在C++中实现卷积神经网络相对复杂,通常需要依赖一些库,如TinyDNN、Caffe | Deep Learning Framework等。以下是一个简化的示例框架,用于说明如何在C++中构建CNN的基本结构:
#include <tiny_dnn/tiny_dnn.h>
using namespace tiny_dnn;
using namespace tiny_dnn::layers;
int main() {
network<sequential> net;
net << conv(32, 32, 5, 1, 6) // C1卷积层
<< relu() // 激活函数
<< max_pool(28, 28, 6, 2) // S2池化层
<< conv(14, 14, 5, 6, 16) // C3卷积层
<< relu() // 激活函数
<< max_pool(10, 10, 16, 2) // S4池化层
<< fc(16 * 5 * 5, 120) // F6全连接层
<< relu() // 激活函数
<< fc(120, 84) // F7全连接层
<< relu() // 激活函数
<< fc(84, 10) // 输出层,假设有10个类别
<< softmax(); // softmax激活函数
// 训练网络等后续操作...
}
请注意,上述C++示例使用了TinyDNN库,这是一个纯C++实现的深度学习库,适用于嵌入式系统和移动平台。在实际应用中,可能需要根据具体任务调整网络结构和参数。
总的来说,卷积神经网络通过卷积层提取图像特征,池化层降低维度和复杂度,全连接层进行分类决策,从而实现对图像等数据的自动学习和识别。
3.2. 循环神经网络(RNN)
能够处理序列数据,如时间序列数据、语音、文本等,在语言模型和机器翻译等任务中表现出色。
游戏AI的创造思路-技术基础-深度学习(2)-CSDN博客文章浏览阅读752次,点赞10次,收藏13次。由于C++实现RNN涉及较多底层细节和TensorFlow C++ API的复杂使用,通常建议先在Python环境中进行模型的开发和调试,然后再考虑将模型导出为可在C++环境中使用的格式(如TensorFlow的SavedModel格式),最后在C++中进行加载和使用。为了解决RNN的这些缺点,研究者们提出了许多改进方案,如LSTM(长短期记忆网络)和GRU(门控循环单元)等变体结构,它们通过引入门控机制和记忆单元来改进RNN的性能,特别是在处理长序列和捕捉长期依赖方面取得了显著进展。https://blog.csdn.net/m0_37694276/article/details/139872578
3.3. 长短期记忆网络(LSTM)
是RNN的一种变体,能够学习长期依赖关系,在文本摘要、语音识别等需要长期记忆的场景中非常有用。
游戏AI的创造思路-技术基础-深度学习(3)-CSDN博客长短期记忆网络(LSTM,Long Short-Term Memory)算法是一种特殊的循环神经网络(RNN),它旨在解决传统RNN在处理长序列数据时遇到的梯度消失和梯度爆炸问题,从而更有效地学习序列中的长期依赖关系。为了最小化训练误差,通常使用梯度下降法,如应用时序性倒传递算法,来依据错误修改每次的权重。此外,LSTM有多种变体,其中一个重要的版本是门控循环单元(GRU)。LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。其表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好。https://blog.csdn.net/m0_37694276/article/details/139926110
3.4. 生成对抗网络(GAN)
由生成器和判别器两部分组成,在图像生成、数据增强等领域有广泛应用。
3.5. 自编码器(AE)
通过编码器将输入数据压缩成低维表示,然后通过解码器重建数据,常用于降维和特征学习。
3.6. 深度信念网络(DBN)
由多个受限玻尔兹曼机(RBM)堆叠而成,可用于特征学习和预训练。
3.7. Transformer
限于篇幅太长,看着也累写着也累,3.2-3.7的内容将在后续的文章中逐步进行阐述