深度学习基础知识——从人工神经网络开始

一、介绍

您知道第一个神经网络是在 20 世纪 50 年代初发现的吗?

深度学习 (DL) 和神经网络 (NN) 目前正在推动本世纪一些最巧妙的发明。他们从数据和环境中学习的令人难以置信的能力使他们成为机器学习科学家的首选。

深度学习和神经网络是自动驾驶汽车、图像识别软件、推荐系统等产品的核心。显然,它是一种强大的算法,对各种数据类型也具有高度适应性。

人们认为神经网络是一个极其难学的课题。因此,要么他们中的一些人不使用它,要么使用它的人将其用作黑匣子。在不知道如何完成某件事的情况下做这件事还有意义吗?不!

在本文中,我试图用简单的语言解释神经网络的概念。理解这篇文章需要一点生物学知识和很大的耐心。读完本文后,您将成为一名自信的分析师,准备开始使用神经网络。如果有什么不明白的地方,可以在评论区留言。

注意:本文最适合数据科学和机器学习领域的中级用户。初学者可能会发现它具有挑战性。

二、目录

  • 介绍
  • 什么是神经网络?
  • 单个神经元如何工作?
    • 示例 1:与
    • 示例 2:或
    • 示例 3:NOT
  • 为什么多层网络有用?
    • 情况1:X1 XNOR X2 = (A'.B') + (AB)
    • 情况 2: X1 XNOR X2 = NOT [ (A+B).(A'+B') ]
  • 神经网络的一般结构
  • 反向传播
  • 经常问的问题
  • 尾注

三、什么是神经网络?

神经网络(NN),也称为人工神经网络,因其对人类神经系统工作的人工表示而得名。还记得这张图吗?我们大多数人都在高中接受过教育!

闪回回顾:让我们首先了解我们的神经系统是如何工作的。 神经系统 由数百万个神经细胞或神经元组成。神经元具有以下结构:

主要组成部分是:

  • 树突 - 它以电脉冲的形式从其他神经元获取输入
  • Cell Body – 它根据这些输入产生推论并决定采取什么行动
  • 轴突终端– 以电脉冲形式传输输出

简单来说,每个神经元通过树突从许多其他神经元获取输入。然后,它对输入执行所需的处理,并通过公理将另一个电脉冲发送到终端节点,从那里传输到许多其他神经元。

ANN 的工作方式非常相似。神经网络的一般结构如下所示:来源

该图描绘了一个典型的神经网络,其中单独解释了单个神经元的工作。让我们来理解这一点。

每个神经元的输入就像树突。就像人类神经系统一样,神经元(尽管是人工的!)整理所有输入并对它们执行操作。最后,它将输出传输到与其连接的所有其他神经元(下一层)。神经网络分为 3 种类型的层:

  1. 输入层: 训练观察结果通过这些神经元馈送
  2. 隐藏层: 这些是输入和输出之间的中间层,帮助神经网络学习数据中涉及的复杂关系。
  3. 输出层: 最终输出是从前两层中提取的。例如:如果分类问题有 5 个类别,则稍后的输出将有 5 个神经元。

让我们首先通过示例研究每个神经元的功能。

四、单个神经元如何工作?

在本节中,我们将通过简单的示例探讨单个神经元的工作原理。这个想法是让您直观地了解神经元如何使用输入计算输出。典型的神经元如下所示:

不同的组件是:

  1. x 1 , x 2 ,…, x N: 神经元的输入。这些可以是来自输入层的实际观察值,也可以是来自隐藏层之一的中间值。
  2. x 0: 偏置单位。这是添加到激活函数输入的常数值。它的工作原理与截距项类似,通常具有 +1 值。
  3. w 0 ,w 1 , w 2 ,…,w N: 每个输入的权重。请注意,即使是偏差单位也有权重。
  4. a: 神经元的输出,计算公式为:

这里f是已知的激活函数。这使得神经网络极其灵活,并具有估计数据中复杂非线性关系的能力。它可以是高斯函数、逻辑函数、双曲函数,甚至在简单情况下可以是线性函数。

让我们使用神经网络实现 3 个基本功能 – OR、AND、NOT。这将帮助我们了解它们是如何工作的。您可以假设这些就像一个分类问题,我们将预测不同输入组合的输出(0 或 1)。

我们将使用以下激活函数对它们进行建模,就像线性分类器一样:

示例 1:与

AND 函数可以实现为:

该神经元的输出为:

a = f(-1.5 + x1 + x2 )

此实现的真值表是:

到这里我们可以看到AND函数已经成功实现了。列“a”符合“X1 AND X2”。请注意,此处偏差单位权重为-1.5。但这不是一个固定值。直观上,我们可以将其理解为只有当x 1和x 2都为正时,使得总值为正的任何东西。所以 (-1,-2) 之间的任何值都可以。

示例 2:或

OR 函数可以实现为:

该神经元的输出为:

a = f(-0.5 + x1 + x2 )

此实现的真值表是:

列“a”符合“X1 OR X2”。我们可以看到,仅仅通过改变偏置单元权重,我们就可以实现一个OR函数。这与上面的非常相似。直观上你可以理解,这里的偏置单位是这样的:如果x1或x2中的任何一个变为正值,则加权和将为正值。

示例 3:NOT

就像前面的情况一样,NOT 函数可以实现为:

该神经元的输出为:

a = f( 1 – 2*x1 )

此实现的真值表是:

再次,符合期望值证明了功能。我希望通过这些示例,您能够对神经网络内的神经元如何工作有一些直观的了解。这里我使用了一个非常简单的激活函数。

注意:通常 会使用逻辑函数来代替我在这里使用的函数,因为它是可微的并且可以确定梯度。只有 1 个捕获点。也就是说,它输出的是浮点值,而不是精确的 0 或 1。

五、为什么多层网络有用?

在了解单个神经元的工作原理之后,让我们尝试了解神经网络如何使用多层来建模复杂的关系。为了进一步理解这一点,我们将以XNOR 函数为例。回顾一下,XNOR 函数的真值表如下所示:

在这里我们可以看到,当两个输入相同时,输出为 1,否则为 0。这种关系无法使用单个神经元进行建模。(不相信我?尝试一下!)因此我们将使用多层网络。使用多层背后的想法是可以将复杂的关系分解为更简单的函数并进行组合。

让我们分解一下 XNOR 函数。

  X1 XNOR X2 = NOT ( X1 XOR X2 )
                   = NOT [ (A+B).(A'+B') ]        (注意:这里 '+' 表示 OR,'.' 表示 AND)
                   = (A+B)' + (A'+B')'
                   = (A'.B') + (AB)

现在我们可以使用任何简化的情况来实现它。我将通过两个案例向您展示如何实现这一点。

情况1:X1 XNOR X2 = (A'.B') + (AB)

这里的挑战是设计一个神经元来建模 A'.B' 。这可以使用以下内容轻松建模:

该神经元的输出为:

a = f( 0.5 – x1 – x2 )

该函数的真值表为:

现在我们已经对各个组件进行了建模,我们可以使用多层网络将它们组合起来。首先,让我们看一下该网络的语义图:

这里我们可以看到,在第 1 层,我们将分别确定 A'.B' 和 AB。在第 2 层中,我们将获取它们的输出并在顶部实现 OR 函数。这将完成整个神经网络。最终的网络如下所示:

如果你仔细观察,这只不过是我们已经绘制的不同神经元的组合。不同的输出代表不同的单位:

  1. a 1 :实现 A'.B'
  2. a 2 :实现AB
  3. a 3:实现适用于 a1 和 a2 的 OR,因此有效 (A'.B' + AB)

可以使用真值表验证功能:

我想现在您可以对多层的工作原理有一些直观的了解。让我们对同一案例进行另一个实现。

情况 2: X1 XNOR X2 = NOT [ (A+B).(A'+B') ]

在上面的例子中,我们必须分别计算A'.B'。如果我们只想使用基本的 AND、OR、NOT 函数来实现该函数该怎么办?考虑以下语义:

在这里您可以看到我们必须使用 3 个隐藏层。工作将与我们之前所做的类似。网络看起来像:

这里神经元执行以下操作:

  1. a 1 :与A相同
  2. a 2 :实现 A'
  3. a 3 :与B相同
  4. a 4 :实现 B'
  5. a 5:实现 OR,实际上是 A+B
  6. a 6:实现 OR,实际上是 A'+B'
  7. a 7 :有效地实现 AND (A+B).(A'+B')
  8. a 8:实现 NOT,实际上 NOT [ (A+B).(A'+B') ],这是最终的 XNOR

请注意,通常一个神经元会馈送到下一层的除偏置单元之外的所有其他神经元。在本例中,我消除了从第 1 层到第 2 层的一些连接。这是因为它们的权重为 0,添加它们会使视觉上难以掌握。

真值表为:

最后,我们成功实现了XNOR功能。此方法比情况 1 更复杂。因此,您应该始终首选情况 1。但这里的想法是展示如何将复杂的功能分解为多个层。我希望现在多层的优势更加明显。

六、神经网络的一般结构

现在我们已经了解了一些基本示例,让我们定义每个神经网络所属的通用结构。我们还将看到在给定输入的情况下确定输出所遵循的方程。这称为 前向传播

通用神经网络可以定义为:

它有 L 层,其中 1 个输入层、1 个输出层和 L-2 个隐藏层。术语:

  • L:层数
  • N i:第i层神经元数量(不包括偏置单元),其中i=1,2,…,L
  • a i (j):第 i 层第 j 个神经元的输出,其中 i=1,2…L | j=0,1,2….N i

由于每层的输出形成下一层的输入,因此我们定义方程,以使用第 i 层的输出作为输入来确定第 i+1 层的输出。

第i+1层的输入为:

A i = [ a i (0) , a i (1) , ......, a i (N i ) ]
suze:1×N i +1

第i层到第i+1层的权重矩阵为:

W (i) = [ [ W 01 (i)     W 11 (i)   ....... W N i 1 (i) ]
        [ W 02 (i)     W 12 (i)   ....... W N i 2 (i) ]
           ……
           ……
           ……
           ……
        [ W 0N i+1 (i)   W 1N i+1 (i)   ....... W N i N i+1 (i) ] ]

尺寸:N i+1 x N i +1

第i+ 1层的输出可以计算为:

A i+1 = f( A i .W (i) )
尺寸:1×N i+1

对每个后续层使用这些方程,我们可以确定最终输出。输出层中神经元的数量取决于问题的类型。对于回归或二元分类问题,它可以是 1;对于多类分类问题,它可以是多个。

但这只是确定 1 次运行的输出。最终目标是更新模型的权重以最小化损失函数。权重使用反向传播算法进行更新,我们接下来将研究该算法。

七、反向传播

反向传播 (BP) 算法的工作原理是确定输出的损失(或误差),然后将其传播回网络。更新权重以最小化每个神经元产生的误差。我不会详细介绍该算法,但我会尝试让您直观地了解它的工作原理。

最小化误差的第一步是确定每个节点的梯度。最终输出。由于它是一个多层网络,确定梯度并不是很简单。

让我们了解多层网络的梯度。让我们从神经网络退后一步,考虑一个非常简单的系统,如下所示:

这里有3个输入,简单处理为:

d = a – b
e = d * c = (ab)*c

现在我们需要确定 a、b、c、d 对于输出 e 的梯度。以下情况非常简单:

然而,为了确定 a 和 b 的梯度,我们需要应用链式法则。

并且,通过简单地将节点输入的梯度与该节点输出的梯度相乘来计算梯度。如果你还是一头雾水,只要仔细看5遍方程式你就明白了!

但实际案例并没有那么简单。我们再举一个例子。考虑将单个输入输入到下一层中的多个项目的情况,因为神经网络几乎总是这种情况。

在这种情况下,除了“m”之外,所有其他的梯度将与上面的示例非常相似,因为 m 被馈送到 2 个节点中。在这里,我将展示如何确定 m 的梯度,其余的你应该自己计算。

在这里你可以看到梯度只是两个不同梯度的总和。我希望乌云正在慢慢消失,一切都变得清晰。只要理解这些概念,我们就会回到这个话题。

在继续之前,让我们总结一下神经网络优化背后的整个过程。每次迭代涉及的各个步骤是:

  1. 选择网络架构,即隐藏层数、每层神经元数和激活函数
  2. 随机初始化权重
  3. 使用前向传播来确定输出节点
  4. 使用已知标签找出模型的误差
  5. 将误差反向传播到网络中并确定每个节点的误差
  6. 更新以最小化梯度

到目前为止,我们已经介绍了#1 – #3,并且对#5 有了一些直觉。现在让我们从#4 – #6 开始。我们将使用第 4 节中描述的相同的 NN 通用结构。

#4-找出错误

e L (i) = y (i) - a L (i) | e L (i) = y (i) - a L (i) | i = 1,2,...,N L

这里 y (i)是训练数据的实际结果

#5-将误差反向传播到网络中

L-1 层的误差应首先使用以下公式确定:

其中 i = 0,1,2, ….., NL-1(L-1 层的节点数)

从本节前半部分讨论的概念中得到的直觉:

  • 我们看到一个节点的梯度是下一层所有节点梯度的函数。这里,节点的误差基于下一层所有节点的误差的加权和,该下一层的所有节点将该节点的输出作为输入。由于误差是使用每个节点的梯度计算的,因此该因素就出现了。
  • f'(x) (i)是指进入该节点的输入的激活函数的导数。请注意,x 是指应用激活函数之前当前节点中所有输入的加权和。
  • 这里遵循链式法则,将当前节点的梯度(即 f'(x) ( )) 与来自方程 RHS 前半部分的后续节点的梯度相乘。

这个过程必须从L-1层到第2层连续重复。请注意,第一层只是输入。

#6-更新权重以最小化梯度

使用以下权重更新规则:
 Wik (l) = Wik (l) + a (i) .el + 1 (k)

这里,

  • l = 1,2,….., (L-1) | 层索引(不包括最后一层)
  • i = 0,1,….., N l | 第l层节点索引
  • k = 1,2,…., N l+1 | 第l+ 1层节点索引
  • Wik (l)指第i个节点到第k个节点第l层到第l+1层的权重

我希望公约是明确的。我建议您多次查看,如果仍有疑问,我很乐意通过下面的评论来解答。

至此,我们已经成功地理解了神经网络的工作原理。如有需要,欢迎进一步讨论。

八、经常问的问题

Q1. 深度学习的基础是什么?

A. 深度学习的基础包括:
1. 神经网络:深度学习依赖于人工神经网络,人工神经网络由互连的人工神经元层组成。
2.深层:深度学习模型具有多个隐藏层,使它们能够学习数据的层次表示。
3. 使用反向传播进行训练:深度学习模型是使用反向传播进行训练的,反向传播根据前向和反向传播过程中计算的误差来调整模型的权重。
4. 激活函数:激活函数将非线性引入网络,使其能够学习复杂的模式。
5. 大型数据集:深度学习模型需要大型标记数据集才能有效地从数据中学习和概括。

Q2。神经网络的基本原理是什么?

A. 神经网络的基本原理包括:
1. 神经元:神经网络由模仿生物神经元行为的互连人工神经元组成。
2.权重和偏差:神经元具有相关的权重和偏差,决定它们的连接强度和激活阈值。
3. 激活函数:每个神经元对其输入应用激活函数,引入非线性并实现复杂的计算。
4. 层:神经元被组织成层,包括输入层、隐藏层和输出层,用于处理和转换数据。
5.反向传播:使用反向传播来训练神经网络,根据误差梯度调整权重以提高性能。

九、后记

本文重点介绍神经网络的基础知识及其工作原理。我希望现在您了解神经网络的工作原理,并且永远不会将其用作黑匣子。一旦你了解并实际操作起来,这真的很容易。

因此,在我即将发表的文章中,我将解释在 Python 中使用神经网络的应用。除了理论之外,我将重点关注神经网络的实践方面。我立即想到了两个应用程序:

  1. 图像处理
  2. 自然语言处理

我希望你喜欢这个。如果您能通过下面的评论分享您的反馈,我会很高兴。期待与您就此进一步交流!

https://www.analyticsvidhya.com/blog/2016/03/introduction-deep-learning-fundamentals-neural-networks/ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/160360.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Pytorch torch.normal()的用法

该函数原型如下: normal(mean, std, *, generatorNone, outNone) 该函数返回从单独的正态分布中提取的随机数的张量,该正态分布的均值是mean,标准差是std。 用法如下:我们从一个标准正态分布N~(0,1),提取…

《洛谷深入浅出基础篇》——P3405 citis and state ——哈希表

上链接:P3405 [USACO16DEC] Cities and States S - 洛谷 | 计算机科学教育新生态 (luogu.com.cn)https://www.luogu.com.cn/problem/P3405 上题干: 题目描述 Farmer John 有若干头奶牛。为了训练奶牛们的智力,Farmer John 在谷仓的墙上放了一…

cadence virtuoso PEX option error

在设置PEX options时出现error。 Error while compiling rules file /home/IC/Tech/PDk_13mmrf_1P6M_30k/Calibre/LvS/SmicSPM7PR12R_cal013_mixR_sali_pimtx_1233_v2.6_2P . xrc: ErrorINCLi on lire 838of /home/IC/Tech/PDK_13mmrf_1P6M_30k/Calibre/LvS/SmicSPM7PR12R_cal…

DAO和增删改查通用方法-BasicDao

文章目录 一、BasicDao是什么?二、BasicDao分析三、BasicDao实现(1)BasicDao(2)ActorDao(3)TestDao 四、总结 一、BasicDao是什么? BasicDao:基础的数据对象,可以完成通用…

vmware workstation pro 17.5 安装 macos 13.5.2 虚拟机超详细图文教程

前言 本文很细,甚至有点墨迹,主要为了方便从来没用过 vmware 的新人,其实大部分步骤和正常安装虚拟机没有区别,详细贴图以方便大家对比细节 参考文章 感谢大佬们的无私分享 https://blog.csdn.net/qq_19731521/article/details…

【LeetCode刷题-滑动窗口】-- 795.区间子数组个数

795.区间子数组个数 class Solution {public int numSubarrayBoundedMax(int[] nums, int left, int right) {return lessEqualsThan(nums,right) - lessEqualsThan(nums,left - 1);}private int lessEqualsThan(int[] nums,int k){int len nums.length;int res 0,left 0,ri…

三十、W5100S/W5500+RP2040树莓派Pico<PPPoE>

文章目录 1 前言2 简介2 .1 什么是PPPoE?2.2 PPPoE的优点2.3 PPPoE数据交互原理2.4 PPPOE应用场景 3 WIZnet以太网芯片4 PPPOE示例概述以及使用4.1 流程图4.2 准备工作核心4.3 连接方式4.4 主要代码概述4.5 结果演示 5 注意事项6 相关链接 1 前言 PPPoE是一种在以太…

需求管理>需求的变更流程

1.需求的变更流程 一个大型软件系统的需求总是有变化的。为了降低项目开发的风险,需要一个好的变更控制过程。如下图所示为需求变更管理过程。 在需求管理过程中需求的变更是受严格管控的,其流程为: 1、问题分析和变更描述。这是识别和分析需…

三十分钟学会Linux

Linux 一、配置虚拟机 企业级应用:RHEL/CentOS 桌面平台:Ubuntu 开源服务器:CentOS 1.配置网络 路径可以通过TAB键自动补齐 vi /etc/sysconfig/network-scripts/ifcfg-ens332.克隆虚拟机 链接克隆: 当前节点文件夹只存储差…

四、程序员指南:数据平面开发套件

REORDER LIBRARY 重排序库提供了根据其序列号对mbuf进行重排序的机制。 16.1 操作 重排序库本质上是一个对mbuf进行重新排序的缓冲区。用户将乱序的mbuf插入重排序缓冲区,并从中提取顺序正确的mbuf。 在任何给定时刻,重排序缓冲区包含其序列号位于序列…

人工智能Keras的第一个图像分类器(CNN卷积神经网络的图片识别)

CNN卷积神经网络是人工智能的开端,CNN卷积神经网络让计算机能够认识图片,文字,甚至音频与视频。CNN卷积神经网络的基础知识,可以参考:CNN卷积神经网络 LetNet体系结构是卷积神经网络的“第一个图像分类器”。最初设计用于对手写数字进行分类,上期文章我们分享了如何使用k…

西南科技大学814考研二

C语言数据结构与算法 线性表 顺序表(静态分配内存) #include <stdio.h> #include <stdbool.h> //静态顺序表 #define MAX_SIZE 8 //顺序表储存的数据类型 typedef int ElemType; typedef struct {ElemType data[MAX_SIZE];int length; }SeqList; //初始化顺序表…

解决 vite 4 开发环境和生产环境打包后空白、配置axios跨域、nginx代理本地后端接口问题

1、解决打包本地无法访问空白 首先是pnpm build 打包后直接在dist访问&#xff0c;是访问不了的&#xff0c;需要开启服务 终端输入 npm install -g serve 然后再输入 serve -s dist 就可以访问了 但要保证 路由模式是&#xff1a;createWebHashHistory 和vite.conffig.j…

移动机器人路径规划(四)--- 考虑机器人模型下的运动规划KINODYNAMIC PATHFINDING

目录 1 动力学概念简介 2 State Lattice Planning 3 Boundary Value Problem 4 混合A*算法 Hybrid A* 5 Kinodynamic RRT* 1 动力学概念简介 一种生成机器人的运动同时受限制于运动学的约束&#xff08;避障&#xff09;以及动力学的约束&#xff08;在速度加速度力的约束…

构建自定义ChatGPT,微软推出Copilot Studio

11月16日&#xff0c;微软在美国西雅图举办“Microsoft Ignite 2023”全球开发者大会。本次人工智能成为重要主题&#xff0c;微软几乎把所有产品都集成了生成式AI功能并发布了一系列全新产品。 其中&#xff0c;微软重磅推出了Copilot Studio&#xff08;预览版&#xff09;&…

IO流-打印流

一&#xff0c;打印流 二&#xff0c;常用方法 三&#xff0c;案例 package Print.sd;import java.io.FileNotFoundException; import java.io.PrintStream; import java.nio.charset.Charset;public class Main {public static void main(String[] args) throws FileNotFound…

RasberryPi 3B+ 树莓派 初识

关于香橙派的学习暂时告一段落&#xff0c;从本节开始学习树莓派3B&#xff01; 我在亚马逊官网购买了3b和壳子&#xff0c;安装完成后大概长这样&#xff1a; &#xff08;感觉的确像一台小型电脑主机了&#xff09; 树莓派的引脚功能图 图参&#xff1a;树莓派3B 引脚图说明…

SELF-RAG: 让LLM集检索,生成跟评判等多种能力于一身

SELF-RAG: 让LLM集检索&#xff0c;生成跟评判等多种能力于一身 提纲 1 简介 2 SELF-RAG 3 实验结论 4 讨论 参考文献 1 简介 尽管基础能力出众&#xff0c;但是大模型只能依赖于被压缩到模型参数中的知识&#xff0c;所以经常会生成不符合事实的回复。针对这种事实性错…

Devart dotConnect ADO.NET Data Providers Crack

开发数据相关 .NET 应用程序的终极解决方案&#xff1a;快速、灵活、全面、功能丰富、支持 ORM 的 ADO.NET 提供程序 概述 实体框架 连接字符串 博客 高性能 ADO.NET 数据提供程序 dotConnect 是基于 ADO.NET 架构和采用多项创新技术的开发框架构建的增强型数据连接解决方​​…

C++初阶-内存管理

内存管理 一、C/C内存分布二、C语言中动态内存管理方式&#xff1a;malloc/calloc/realloc/free三、C内存管理方式new/delete操作内置类型new和delete操作自定义类型 四、operator new与operator delete函数operator new与operator delete函数 五、new和delete的实现原理内置类…