深度学习相关概念及术语总结

目录

  • 1.CNN
  • 2.RNN
  • 3.LSTM
  • 4.NLP
  • 5.CV
  • 6.正向传播
  • 7.反向传播
  • 8.sigmoid 函数
  • 9.ReLU函数
  • 10.假设函数
  • 11.损失函数
  • 12.代价函数

1.CNN

CNN 是卷积神经网络(Convolutional Neural Network)的缩写。卷积神经网络是一种深度学习模型,专门用于处理具有网格状结构的数据,例如图像和视频。CNN 最初被广泛应用于图像识别领域,但随后也扩展到其他领域,如自然语言处理等。

CNN 的核心特点包括:

  • 卷积层:CNN 使用卷积层来提取输入数据的特征。卷积操作通过滤波器(或称为卷积核)在输入数据上滑动,计算出每个位置的特征值。
  • 池化层:CNN 使用池化层来减小特征图的尺寸,同时保留最重要的信息。池化操作通常包括最大池化或平均池化。
  • 全连接层:在卷积和池化层之后,CNN 通常包括全连接层,用于将提取的特征映射到输出类别。

CNN 在图像识别、目标检测、人脸识别等领域取得了巨大成功,并且在自然语言处理领域的文本分类、情感分析等任务中也取得了显著的成果。由于其对图像和序列数据的强大特征提取能力,CNN 已成为深度学习领域中最重要和广泛应用的模型之一。

2.RNN

RNN是循环神经网络(Recurrent Neural Network)的缩写。循环神经网络是一种专门用于处理序列数据(如文本、音频、时间序列等)的神经网络模型。
RNN的核心特点包括:

  • 循环结构:RNN具有循环的结构,使其能够对序列数据进行逐个元素的处理,并在处理每个元素时保留之前的状态信息。
  • 时间展开:为了更好地理解RNN的工作原理,通常可以将RNN在时间上展开,形成一个循环结构的网络,每个时间步都有相同的网络结构,共享参数。
  • 状态传递:RNN能够在处理序列数据时传递状态信息,这意味着它可以记忆之前的输入,并在当前时间步使用这些信息。

RNN在自然语言处理、语音识别、时间序列预测等领域中得到了广泛的应用。然而,传统的RNN模型存在梯度消失和梯度爆炸等问题,为了克服这些问题,后来出现了许多改进的RNN变体,如长短时记忆网络(LSTM)和门控循环单元(GRU)等。

总的来说,RNN以其对序列数据的处理能力而闻名,成为了深度学习领域中重要的模型之一。

3.LSTM

LSTM是长短时记忆网络(Long Short-Term Memory)的缩写。它是一种循环神经网络(RNN)的变体,旨在克服传统RNN模型中的长期依赖问题,并能更好地处理和记忆序列数据。

LSTM的核心特点包括:

  • 遗忘门(Forget Gate):LSTM引入了遗忘门来控制前一个时间步的记忆状态是否被遗忘。
  • 输入门(Input Gate):LSTM使用输入门来控制当前时间步的输入如何被加入到记忆状态中。
  • 输出门(Output Gate):LSTM使用输出门来控制记忆状态如何影响当前时间步的输出。

通过这些门控机制,LSTM可以更好地处理长序列数据,并能够更有效地传递和记忆长期依赖关系。因此,在自然语言处理、时间序列分析、语音识别等领域,LSTM已经成为了一种非常有用的模型。

总的来说,LSTM的设计使其能够更好地处理和记忆序列数据中的长期依赖关系,因此在处理具有长期依赖的序列数据时具有很强的表现力。

4.NLP

NLP 是自然语言处理(Natural Language Processing)的缩写。自然语言处理是一种人工智能领域,专门研究计算机与人类自然语言之间的交互、理解和处理。

NLP 主要涉及以下内容:

  • 语言理解:NLP 旨在使计算机能够理解和解释人类语言的含义,包括语音识别、文本理解、语义分析等。
  • 语言生成:NLP 还包括使计算机能够生成人类可理解的自然语言,比如文本生成、对话系统、自动摘要等。
  • 语言处理应用:NLP 在许多实际应用中发挥作用,包括情感分析、机器翻译、信息检索、问答系统等。

NLP 的目标是使计算机能够理解和处理人类的自然语言,使其能够与人类进行自然、智能的交互。在近年来,由于深度学习和大数据的发展,NLP 已经取得了巨大的进步,使得计算机在处理和理解自然语言方面取得了显著的成就。

5.CV

CV通常指的是“Computer Vision”(计算机视觉)。计算机视觉是一种人工智能领域,致力于使计算机能够理解、分析和解释图像和视频数据。它涉及图像处理、模式识别、机器学习等技术,用于实现图像识别、物体检测、人脸识别、视频分析等应用。

计算机视觉的目标是开发算法和技术,使计算机能够模拟人类的视觉系统,从图像或视频中提取有用的信息,并做出相应的决策。计算机视觉在许多领域都有广泛的应用,包括医学影像分析、自动驾驶、安防监控、工业质检、增强现实等。

在学术和工业界,计算机视觉一直是一个活跃的研究领域,并且随着深度学习和大数据的发展,计算机视觉技术取得了显著的进步,为图像和视频分析提供了更准确和高效的解决方案。

6.正向传播

正向传播(Forward Propagation)或叫向前传播 是神经网络中的一个重要概念,用于描述信号在网络中从输入到输出的传播过程。在训练神经网络时,正向传播是指输入数据通过神经网络的各层,逐层计算并传播,最终得到输出结果的过程。

在正向传播过程中,输入数据首先经过输入层,然后通过隐藏层(可能有多个)进行加权求和、激活函数处理,最终得到输出层的输出。每一层的输出都作为下一层的输入,这样信号就会依次传播至输出层。

具体来说,正向传播包括以下步骤:

  1. 输入数据通过输入层传递至第一个隐藏层,进行加权求和和激活函数处理,得到第一个隐藏层的输出。
  2. 第一个隐藏层的输出作为输入传递至下一个隐藏层,同样进行加权求和和激活函数处理,得到下一个隐藏层的输出。
  3. 最终,经过所有隐藏层的处理后,数据传递至输出层,进行加权求和和激活函数处理,得到神经网络的输出结果。

正向传播是神经网络训练中的第一步,它将输入数据经过网络中的权重和偏置,通过激活函数的处理,最终得到网络的输出结果。这个输出结果可以与真实标签进行比较,从而计算出预测值与真实值之间的误差,进而进行反向传播(Backward Propagation)来更新网络参数,从而逐步优化网络的预测能力。

7.反向传播

反向传播(Backward Propagation)或向后传播是神经网络中的一个重要概念,用于调整网络中权重和偏置的过程。它是在训练神经网络时使用的一种优化算法,通过计算损失函数对神经网络参数的梯度,然后根据梯度下降法来更新网络中的参数,以使损失函数达到最小值。

在反向传播过程中,首先通过正向传播计算出网络的输出,然后计算输出与真实标签之间的误差。接着,误差会反向传播回网络,计算每个参数对误差的贡献,进而根据梯度下降法来更新网络的权重和偏置。

具体来说,反向传播包括以下步骤:

  1. 计算损失函数对网络输出的梯度。
  2. 将梯度反向传播回输出层,计算每个参数对损失函数的梯度。
  3. 将梯度继续反向传播至隐藏层,计算每个参数对损失函数的梯度。
  4. 根据梯度下降法,更新网络中的权重和偏置。

通过反向传播,神经网络可以利用梯度下降法逐步调整参数,以最小化损失函数,从而提高网络的预测能力。

反向传播是神经网络训练中至关重要的一部分,它使得神经网络能够根据数据动态地调整参数,从而更好地适应不同的任务和数据。

8.sigmoid 函数

Sigmoid函数是一种常用的数学函数,通常用于机器学习中的分类模型,尤其是逻辑回归模型。Sigmoid函数的数学表达式如下:

σ ( z ) = 1 1 + e − z σ(z) =\frac{1}{1+e^{−z}} σ(z)=1+ez1

其中,( e ) 是自然对数的底数,( x ) 是输入的实数。

在这里插入图片描述

Sigmoid函数的特点包括:

  1. 值域在(0, 1)之间:Sigmoid函数的输出值总是在0到1之间,这使得它特别适用于表示概率或将实数映射到概率值的问题。
  2. 平滑性:Sigmoid函数是连续可导的,并且具有良好的平滑性,这在优化算法中非常有用。
  3. 应用于逻辑回归:在逻辑回归中,Sigmoid函数通常用作激活函数,将线性模型的输出映射到0到1之间的概率值。

在机器学习中,Sigmoid函数经常用于将模型的输出转化为概率值,以便进行分类预测或计算分类的概率。sigmoid函数在神经网络中也有一些应用,尤其是在早期的神经网络模型中,作为激活函数使用。然而,随着时间的推移,一些新的激活函数,如ReLU(Rectified Linear Unit),已经取代了Sigmoid函数在神经网络中的常规使用。

9.ReLU函数

ReLU(Rectified Linear Unit)函数是一种常用的激活函数,用于神经网络中的前向传播过程。ReLU函数定义如下:

R e L U ( x ) = m a x ( x , 0 ) ReLU(x)=max(x,0) ReLU(x)=max(x,0)

换句话说,当输入 (x) 大于0时,ReLU函数返回 (x),否则返回0。

在这里插入图片描述

ReLU函数的特点包括:

  1. 非线性:ReLU函数是非线性的,这对于神经网络的表示能力至关重要。
  2. 稀疏性:在反向传播过程中,对于负的输入,ReLU函数的导数为0,这意味着一些神经元将被置为非活跃状态,从而实现了网络的稀疏性。
  3. 克服梯度消失问题:与一些传统的激活函数相比,ReLU函数有助于克服梯度消失问题,使得训练更加稳定。

ReLU函数在深度学习中得到了广泛的应用,尤其是在卷积神经网络(CNN)等模型中。它的简单性、非线性和稀疏性等特点使得它成为了许多深度学习模型的首选激活函数。然而,ReLU函数也有一些问题,如死亡神经元问题(Dead Neurons),即一些神经元可能在训练过程中永远不会被激活,这一问题后续被一些改进版本的激活函数所解决,如Leaky ReLU和ELU。

10.假设函数

假设函数(Hypothesis Function)是机器学习中的一个重要概念,特别是在监督学习中的回归和分类问题中经常出现。假设函数是指根据输入变量(特征)预测输出变量的函数。在不同的机器学习算法和模型中,假设函数可能会有不同的形式和表示方式。

  1. 线性回归:

在线性回归中,假设函数是一个线性函数,通常表示为:
h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . . . . + θ n x n h_θ(x) = θ_0 + θ_1x_1 +θ_2x_2 + ......+ θ_nx_n hθ(x)=θ0+θ1x1+θ2x2+......+θnxn
其中 ( x 1 , x 2 , . . . . . . x n x_1, x_2,...... x_n x1,x2,......xn ) 是输入特征,( θ 0 , θ 1 , . . . . . . , θ n θ_0, θ_1, ......, θ_n θ0,θ1,......,θn ) 是模型参数(也称为权重),( h θ ( x ) h_θ(x) hθ(x) ) 是预测的输出。

  1. 逻辑回归:
    在逻辑回归中,假设函数是用于估计输入变量属于正类别的概率,通常表示为:
    h θ ( x ) = 1 1 + e − ( θ 0 + θ 1 x 1 + θ 2 x 2 + . . . . . . + θ n x n ) h_θ(x) = \frac{1}{1 + e^{-(θ_0 +θ_1x_1 + θ_2x_2 + ...... + θ_nx_n)}} hθ(x)=1+e(θ0+θ1x1+θ2x2+......+θnxn)1
    其中 ( x 1 , x 2 , . . . . . . x n x_1, x_2,...... x_n x1,x2,......xn ) 是输入特征,( θ 0 , θ 1 , . . . . . . , θ n θ_0, θ_1, ......, θ_n θ0,θ1,......,θn) 是模型参数,( h θ ( x ) h_θ(x) hθ(x) ) 是预测属于正类别的概率。

在机器学习中,假设函数用于表示模型对输入数据的预测。通过合适的参数学习和训练,假设函数可以对新的未知数据进行预测。在训练过程中,模型的目标是找到最佳的参数,使得假设函数能够对数据做出准确的预测。

11.损失函数

损失函数(Loss Function)是在机器学习和优化问题中经常用到的一个重要概念。它用来量化模型预测与实际值之间的差距或损失程度,是模型优化过程中的关键组成部分。在训练模型的过程中,优化算法的目标通常是最小化损失函数,以便使模型的预测更加接近实际值。

不同的机器学习问题和模型会使用不同的损失函数,以下是一些常见的损失函数:

均方误差(Mean Squared Error, MSE):
在回归问题中常用的损失函数,用于衡量模型预测值与实际值之间的平方差。它的数学表达式为:
L ( y , y ^ ) = ( y i − y ^ i ) 2 L(y, \hat{y}) =(y_i - \hat{y}_i)^2 L(y,y^)=(yiy^i)2
其中 ( y i y_i yi) 是真实值,( y ^ i \hat{y}_i y^i) 是模型的预测值。

交叉熵损失(Cross Entropy Loss):
在分类问题中常用的损失函数,特别是在逻辑回归和神经网络中。对于二分类问题,交叉熵损失函数的数学表达式为:
L ( y , y ^ ) = ( y i log ⁡ ( y ^ i ) + ( 1 − y i ) log ⁡ ( 1 − y ^ i ) ) L(y, \hat{y}) = (y_i \log(\hat{y}_i) + (1-y_i) \log(1-\hat{y}_i)) L(y,y^)=(yilog(y^i)+(1yi)log(1y^i))
其中 ( y i y_i yi ) 是真实标签(0或1),( y ^ i \hat{y}_i y^i ) 是模型的预测概率。

Hinge Loss:
用于支持向量机(SVM)中的损失函数,适用于分类问题。Hinge Loss函数的数学表达式为:
L ( y , y ^ ) = max ⁡ ( 0 , 1 − y ⋅ y ^ ) L(y, \hat{y}) = \max(0, 1 - y \cdot \hat{y}) L(y,y^)=max(0,1yy^)

其中 ( y ) 是真实标签(-1或1),( y ^ \hat{y} y^ ) 是模型的预测值。

这些都是常见的损失函数,但实际应用中会根据具体问题和模型的特性选择合适的损失函数。通过优化算法(如梯度下降)来最小化损失函数,可以使模型更好地拟合训练数据,提高预测的准确性。

12.代价函数

代价函数(Cost Function)是机器学习中的一个重要概念,用于衡量模型预测与实际值之间的误差。代价函数是模型优化过程中的关键组成部分,通常在训练过程中被最小化,以便使模型的预测更加接近实际值。

在监督学习中,代价函数用于量化模型的预测误差,以下是一些常见的代价函数:

均方误差(Mean Squared Error, MSE):
均方误差是常用的代价函数,用于回归问题。它衡量了模型预测值与真实值之间的平方差的平均值,其数学表达式为:
J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_{\theta}(x^{(i)}) - y^{(i)})^2 J(θ)=2m1i=1m(hθ(x(i))y(i))2
其中 ( h θ ( x ( i ) ) ) 是模型对样本 ( x ( i ) h_{\theta}(x^{(i)}) ) 是模型对样本 ( x^{(i)} hθ(x(i)))是模型对样本(x(i) ) 的预测值,( y ( i ) y^{(i)} y(i) ) 是样本的真实值,( m ) 是样本数量。

交叉熵损失(Cross Entropy Loss):
交叉熵损失函数通常用于分类问题,特别是在逻辑回归和神经网络中。对于二分类问题,交叉熵损失函数的数学表达式为:
J ( θ ) = − 1 m ∑ i = 1 m ( y ( i ) log ⁡ ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h θ ( x ( i ) ) ) ) J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} (y^{(i)} \log(h_{\theta}(x^{(i)})) + (1-y^{(i)}) \log(1-h_{\theta}(x^{(i)}))) J(θ)=m1i=1m(y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i))))
其中 ( h θ ( x ( i ) ) ) 是模型对样本 ( x ( i ) h_{\theta}(x^{(i)}) ) 是模型对样本 ( x^{(i)} hθ(x(i)))是模型对样本(x(i) ) 的预测概率,( y ( i ) y^{(i)} y(i) ) 是样本的真实标签,( m ) 是样本数量。

代价函数的选择取决于具体的机器学习问题和模型类型。通过最小化代价函数,可以使模型更好地拟合训练数据,提高预测的准确性。

持续更新中!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/443405.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

华容道问题求解_详细设计(四)之查找算法2_BFS

(续上篇) 利用BFS查找,会找到最短路径(没有权重的图),这个道理比较简单,这是由于寻找路径的方法都是从起点或者接近起点的位置开始的。查找过程如果画出图来,类似于一圈圈的放大&…

数据分析-Pandas最简单的方法画矩阵散点图

数据分析-Pandas直接画矩阵散点图 数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律? 数据表&…

数学建模理论与实践国防科大版

目录 1.数学建模概论 2.生活中的数学建模 2.1.行走步长问题 2.2.雨中行走问题 2.3.抽奖策略 2.4.《非诚勿扰》女生的“最优选择” 3.集体决策模型 3.1.简单多数规则 3.2.Borda数规则 3.3.群体决策模型公理和阿罗定理 1.数学建模概论 1.数学模型的概念 2.数学建模的概…

【理解指针(1)】

理解指针(1) 1什么是内存2指针变量和地址21 取地址操作符(&)22 指针变量23 解引用操作符(*)24 指针变量的大小 3指针变量的意义31指针的解引用32 指针加减整数33 void* 指针 4. const 修饰指针41 const…

和数软件:区块链技术的爆发与冲击

什么是区块链?它是如何发展而来的?应用在哪些领域?将会对我国的社会经济产生哪些重大影响? 什么是区块链 区块链作为一种底层技术,最早的实践是数字货币。根据最早的中本聪定义,区块链实质上是一种基于网…

202109 CSP认证 | 脉冲神经网络

3. 脉冲神经网络 好久之前第一次写的时候完全对第三题没感觉,提交上去得了个0 分… 这次自己再写了一遍,花的时间不多,写的时候感觉逻辑也不是特别难。最后是超时了,感觉第三题开始涉及到优化了,不仅仅是暴力模拟就可以…

纪年哥的文物挽救木牌

左(江南制造局,曾国藩书天道酬勤,李鸿章少荃印,光绪三十四年制造) 中(汉阳兵工厂,民国二十六年制造,公元1937年七月七日,抗日战争全面爆发) 右(…

二 centos 7.9 磁盘挂载

上一步 一 windso10 笔记本刷linux cent os7.9系统-CSDN博客 笔记本有两个盘,系统装在128G的系统盘上,现在把另外一个盘挂载出来使用 lsblk 发现磁盘已经分好了,直接挂载就好了,参考文章:Centos7.9 挂载硬盘_centos7.9挂载硬盘-CSDN博客 永久挂载 lsblk -f分区格式化 mkfs…

upload-labs通关记录

文章目录 前言 1.pass-012.pass-023.pass-034.pass-045.pass-056.pass-067.pass-078.pass-089.pass-0910.pass-1011.pass-1112.pass-1213.pass-1314.pass-1415.pass-1516.pass-1617.pass-1718.pass-1819.pass-19 前言 本篇文章记录upload-labs中,所有的通过技巧和各…

首席翻译张璐老师,今年见不到了

她是我的偶像,张璐,连续多年在重量级会议上担任翻译。 2010年,张璐作为翻译出现,是五年来国家级媒体发布会首次起用女翻译。 2011年3月14日的媒体发布会。张璐再任会议翻译。 2012年的媒体发布会,张璐任翻译。 2013年&…

制定一份完美的测试计划,让您的产品质量更上一层楼!

大家好,我是彭于晏。今天学习测试计划如何书写。 虽然很多人日常工作中都知道测试计划是什么,但是写好测试计划,其实并不容易。今天就来一起学习下测试计划如何书写。 什么是测试计划? 测试计划是一份为软件产品所准备的详细文档…

帮管客CRM jiliyu接口存在SQL漏洞 附POC软件

免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该文章仅供学习用途使用。 1. 帮管客CRM简介 微信公众号搜索:南风漏洞复现文库…

yolo模型中神经节点Mul与Sigmoid 和 Conv、Concat、Add、Resize、Reshape、Transpose、Split

yolo模型中神经节点Mul与Sigmoid 和 Conv、Concat、Add、Resize、Reshape、Transpose、Split 在YOLO(You Only Look Once)模型中,具体作用和用途的解释:

接口自动化测试从入门到高级实战!

接口测试背景和必要性 接口测试是测试系统组件间接口(API)的一种测试,主要用于检测内部与外部系统、内部子系统之间的交互质量,其测试重点是检查数据交换、传递的准确性,控制和交互管理过程,以及系统间相互…

深入浅出计算机网络 day.1 概论③ 电路交换、分组交换和报文交换

人无法同时拥有青春和对青春的感受 —— 04.3.9 内容概述 01.电路交换、分组交换和报文交换 02.三种交换方式的对比 一、电路交换、分组交换和报文交换 1.电路交换 计算机之间的数据传送是突发式的,当使用电路交换来传送计算机数据时,其线路的传输效率一…

Rust教程:How to Rust-从开始之前到Hello World

本文为第0篇 专栏简介 本专栏是优质Rust技术专栏,推荐精通一门技术栈的蟹友,不建议基础的同学(无基础学Rust也是牛人[手动捂脸]) 感谢Rust圣经开源社区的同学,为后来者提供了非常优秀的Rust学习资源 本文使用&…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Image)

Image为图片组件,常用于在应用中显示图片。Image支持加载PixelMap、ResourceStr和DrawableDescriptor类型的数据源,支持png、jpg、jpeg、bmp、svg、webp和gif类型的图片格式。 说明: 该组件从API Version 7开始支持。后续版本如有新增内容&am…

【C/C++】常量指针与指针常量的深入解析与区分(什么是const int * 与 int * const ?)

目录 一、前言 二、const 的简单介绍 三、常量指针 🔍介绍与分析 📰小结与记忆口诀 四、指针常量 🔍介绍与分析 📰小结与记忆口诀 五、总结与提炼 六、共勉 一、前言 在【C/C】的编程中,指针与const关键字的组合…

大模型笔记:幻觉 hallucination

1 介绍 “幻觉” (Hallucination),指模型生成自然流畅,语法正确但实际上毫无意义且包含虚假信息即事实错误的文本,以假乱真,就像人产生的幻觉一样。 举个例子就是,即使现在的chatgpt-4,你问他一些有确切…

面向切面编程(AOP)介绍(横切关注点、通知(增强)、连接切入点、切面)

1. 面向切面编程思想AOP AOP:Aspect Oriented Programming面向切面编程 AOP可以说是OOP(Object Oriented Programming,面向对象编程)的补充和完善。OOP引入封装、继承、多态等概念来建立一种对象层次结构,用于模拟公…