多层感知机与深度学习算法概述

多层感知机与深度学习算法概述

读研之前那会儿我们曾纠结于机器学习、深度学习、神经网络这些概念的异同。现在看来深度学习这一算法竟然容易让人和他的爸爸机器学习搞混…可见深度学习技术的影响力之大。深度学习,作为机器学习家族中目前最有价值的一种算法,正在悄悄改变着世界以及我们生活。

本本我们就要搞清楚【深度学习】到底是什么?有哪些技术细节?

1. 多层感知机

请添加图片描述
图1 多层感知机拓扑结构

对于单层神经网络,人们担心它表达能力不足,于是参照仿生结构,想到了带有隐层的神经网络。所有隐藏都可以看成对输入的再次表示,最后的输出层则是一个单层线性神经网络。

2. 从多层感知机到深度学习

2.0 多层感知机的局限

H = X W 1 + b 1 O = H W 2 + b 2 (2-1) H=XW_1+b_1\\ O=HW_2+b_2\tag{2-1} H=XW1+b1O=HW2+b2(2-1)

这是具有单隐层神经网络的输入输出关系。w1、w2、b1、b2分别是隐层、输出层的权重和偏置。这看似参数量比单层神经网络要多,模型的拟合能力应该更好?但如果稍加推导可以发现:
O = ( ( X W 1 + b 1 ) W 2 ) + b 2 = X W 1 W 2 + b 1 W 2 + b 2 = X W 3 + b 3 (2-2) O=((XW_1+b_1)W_2)+b_2\\ =XW_1W_2+b_1W_2+b_2\\ =XW_3+b_3\tag{2-2} O=((XW1+b1)W2)+b2=XW1W2+b1W2+b2=XW3+b3(2-2)
简单的推导可以发现,没有引入非线性单元的多层感知机,就是一个“多层感知鸡”(鸡肋的鸡)。完全可以等效成单层神经网络啊!

那怎么办呢?引入非线性单元啊:每层的输出经过非线性函数后再传给下一层,就没法通过(2-2)的推导转化成单层了。多层感知机+非线性单元——这就是几乎所有深度学习的最基本结构。

2.1 层

  • **输入层:**输入层神经元个数必须和输入特征数一致。
  • **隐藏层:**隐藏层神经元个数一般多于输入层神经元个数,以起到升维映射的作用,可以更好的提取特征。
  • **输出层:**神经元个数应该等于预期输出数目。还可以根据任务不同加上一些激活函数来限制网络输出的值(比如分类问题的softmax)。一般来说,输出层为【全连接层】,全连接层意味着所有的神经元都将由权重建立连接。而输入层和隐藏层一般不是全连接层(比如对于CV这种输入特征非常多的任务)。

当然了,【层,layer】这一概念肯定不止上面3个,但上面3个是所有神经网络共有的层。深度学习发展历程中还出现了一些有关“层”的trick,比如最经典的 卷积层、归一化层、Dropout层等等。。。这些将在深度学习trick中统一梳理。

2.2 块

2.3 非线性单元(激活函数)

激活函数有很多种,但比较常用的就这三种,从此搞明白激活函数的概念。

  • ReLU(Rectified linear unit):

    这是目前最常见的激活函数,可能99%的情况都用这个,因为它能很好的克服反向传播梯度消失的问题。
    R e L U ( x ) = m a x ( x , 0 ) (2-3) ReLU(x)=max(x,0)\tag{2-3} ReLU(x)=max(x,0)(2-3)
    请添加图片描述
    图2 ReLU函数图像

    它的导数什么样很好想象吧,就不画了。有一个小小的问题,x=0时不可导啊?没关系 不差这一个点了,因为权重不可能恒等于0,所以我们令x=0处的导数为0即可。

  • Sigmod:

    在ReLU出现之前,这是最常用的激活函数,但是因为其计算有些复杂,影响训练测试速度;更重要的是其会导致梯度消失问题,导致网络层数无法加深。所以现在几乎不咋用这个了。
    s i g m o d ( x ) = 1 1 + e − x (2-4) sigmod(x)=\frac{1}{1+e^{-x}}\tag{2-4} sigmod(x)=1+ex1(2-4)
    请添加图片描述
    图3 Sigmod函数图像

    导数什么样也很好想象吧…就是中间大,两头小,类似正态分布…

  • Tanh:

    这就是Sigmod函数的极端版,更类似阶跃函数(其实阶跃函数才是最具有仿生意义的)。
    T a n h ( x ) = 1 − e − 2 x 1 + e − 2 x (2-5) Tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}}\tag{2-5} Tanh(x)=1+e2x1e2x(2-5)
    请添加图片描述
    图4 Tanh函数图像

导数就。。更尖了。
这里没提softmax,softmax看上去是一种非线性单元,但其实可以证明还是起到线性的作用,之前讲过,这里省略了。

2.4 数据集

当你要从零开始做一个预测任务时(可能是CV/NLP,可能是det、seg、ocr…),**你最应该关注的并不是作为算法核心的模型,而是数据。**巧妇难为无米之炊,再nb的模型,没有高质量、高数量的数据,也不会有更好的效果,反而有更差的效果。数据与模型的关系在[2.5]节中讨论。

对于成熟的深度学习搭建框架,一般会把数据集分成三类:

训练集(train dataset)、验证集(validation dataset)、测试集(test dataset)。

然而为了省事,验证集和测试集一般设置成一样的,这一点影响不大。但是你最好应该分清楚训练、验证、测试这3个过程,特别是验证和测试的区别

验证:在训练过程中,每n个epoch跑一次验证集的数据,进行一次验证,用来观察当前选取模型(网络+超参数)的拟合能力和泛化能力。

测试:在完全完成训练之后,最终跑一次测试集数据,用来评估模型训练的最终结果。

2.4 训练与推理

训练和推理是深度学习(也是大部分机器学习算法)最基本的两个动作。

  • 训练过程:一次正向传播(forwad)+一次反向传播(backward),为一次迭代(iteration);一次迭代使用的数据叫一个批量(batch);对训练集全部数据完整迭代过一次,称为一个周期(epoch)
  • 推理过程:比训练过程简单很多,一般来说推理的批量为1,即一次只推理一个数据。推理过程只包括一次正向传播,不需要记录梯度。

以下过程我们按只有一个隐藏层的多层感知机来推导。

网络模型:输入x,标签y,隐藏层前具有一个激活函数φ,输入层参数W1,隐藏层参数W2,输出o,损失函数l,正则项s。

2.4.1 正向传播

沿网络输入,逐层计算到网络输出、目标函数。

  1. 输入层输出:
    z = W 1 x (2-6) z=W_1x\tag{2-6} z=W1x(2-6)

  2. 激活函数输出:
    h = φ ( z ) (2-7) h=φ(z)\tag{2-7} h=φ(z)(2-7)

  3. 输出层输出:
    o = W 2 h (2-8) o=W_2h\tag{2-8} o=W2h(2-8)

  4. 损失:
    L = l ( o , y ) (2-9) L=l(o,y)\tag{2-9} L=l(o,y)(2-9)

  5. 正则项:
    s = ω 2 ( ∣ ∣ W 1 ∣ ∣ 2 2 + ∣ ∣ W 2 ∣ ∣ 2 2 ) (2-10) s=\frac{\omega}{2}(||W_1||_2^2+||W_2||_2^2)\tag{2-10} s=2ω(∣∣W122+∣∣W222)(2-10)

  6. 目标函数:
    J = L + s (2-11) J=L+s\tag{2-11} J=L+s(2-11)

2.4.2 反向传播

反向传播需要计算目标函数关于各个层参数的梯度(偏导),由于多层感知机的拓扑结构,只能从目标函数到损失函数、到输出、到隐藏层。。。到输入,从后向前地计算各层的梯度。

  1. 参照(2-11)、(2-9)计算目标函数关于输出o的梯度:
    ∂ J ∂ o = p r o d ( ∂ J ∂ L , ∂ L ∂ o ) = ∂ L ∂ o (2-12) \frac{\partial J}{\partial o}=prod(\frac{\partial J}{\partial L},\frac{\partial L}{\partial o})=\frac{\partial L}{\partial o}\tag{2-12} oJ=prod(LJ,oL)=oL(2-12)
    J对于L的偏导明显是1,不解释吧…

  2. 参照(2-10)计算正则项关于W1、W2的梯度:
    ∂ s ∂ W 1 = ω W 1 ∂ s ∂ W 2 = ω W 2 (2-13) \frac{\partial s}{\partial W_1}=\omega W_1\\ \frac{\partial s}{\partial W_2}=\omega W_2\tag{2-13} W1s=ωW1W2s=ωW2(2-13)

  3. 参照(2-11)、(2-8)计算目标函数关于隐层参数W2的梯度:
    ∂ J ∂ W 2 = p r o d ( ∂ J ∂ o , ∂ o ∂ W 2 ) + p r o d ( ∂ J ∂ s , ∂ s ∂ W 2 ) = ∂ L ∂ o h T + ω W 2 (2-14) \frac{\partial J}{\partial W_2}=prod(\frac{\partial J}{\partial o},\frac{\partial o}{\partial W_2})+prod(\frac{\partial J}{\partial s},\frac{\partial s}{\partial W_2})\\ =\frac{\partial L}{\partial o}h^T+\omega W_2\tag{2-14} W2J=prod(oJ,W2o)+prod(sJ,W2s)=oLhT+ωW2(2-14)
    同样,J对s的偏导是1

  4. 参照(2-8)计算目标函数关于隐藏变量h的梯度:
    ∂ J ∂ h = p r o d ( ∂ J ∂ o , ∂ o ∂ h ) = W 2 T ∂ L ∂ o (2-15) \frac{\partial J}{\partial h}=prod(\frac{\partial J}{\partial o},\frac{\partial o}{\partial h})=W_2^T\frac{\partial L}{\partial o}\tag{2-15} hJ=prod(oJ,ho)=W2ToL(2-15)

  5. 参照(2-7)反向穿过激活函数φ计算目标函数关于输入层输出z的梯度:

∂ J ∂ z = p r o d ( ∂ J ∂ h , ∂ h ∂ z ) = ∂ J ∂ h ⋅ φ ′ ( z ) (2-16) \frac{\partial J}{\partial z}=prod(\frac{\partial J}{\partial h},\frac{\partial h}{\partial z})=\frac{\partial J}{\partial h}\cdotφ^{'}(z)\tag{2-16} zJ=prod(hJ,zh)=hJφ(z)(2-16)

​ 这里的’.'是向量内积,因为激活函数是逐元素计算的,这里计算梯度要用向量内积。

  1. 最后,我们可以得出目标函数关于W1的梯度:
    ∂ J ∂ W 1 = p r o d ( ∂ J ∂ z , ∂ z ∂ W 1 ) + p r o d ( ∂ J ∂ s , ∂ s ∂ W 1 ) = ∂ J ∂ z x T + ω W 1 (2-17) \frac{\partial J}{\partial W_1}=prod(\frac{\partial J}{\partial z},\frac{\partial z}{\partial W_1})+prod(\frac{\partial J}{\partial s},\frac{\partial s}{\partial W_1})\\ =\frac{\partial J}{\partial z}x^T+\omega W_1\tag{2-17} W1J=prod(zJ,W1z)+prod(sJ,W1s)=zJxT+ωW1(2-17)

  2. 至此我们就求出了该多层感知机的所有权重梯度。按(2-14)、(2-17)引用优化器策略更新权重即可。

2.5 过拟合与欠拟合

过拟合与欠拟合表示模型在经过训练后的状态,但这种状态与数据情况、模型情况都紧密相关。
请添加图片描述
图5 过拟合与欠拟合

这两种状态直观上可由训练损失与泛化损失界定;背后由模型复杂度和数据规模决定。

直观上:

当泛化损失大于训练损失时,我们就可以称模型此时在该数据集上处于过拟合状态;

当训练损失处于较大时,我们可以称模型此时在数据集上处于欠拟合状态。

背后:

当模型复杂度(参数规模)越高、数据集规模越小,越容易处于过拟合状态。

当模型复杂度(参数规模)越低、数据集规模越大,越容易处于欠拟合状态。

关于此的一些讨论:

  1. 所以你现在知道当你的模型处于欠拟合和过拟合时应该怎么做了吧,是调整模型,还是调整数据?
  2. 欠拟合一定是一件坏事,宁可过拟合也不要欠拟合。
  3. 换个角度看过拟合,模型过拟合了,那一定效果就很差吗?不一定,可能只是泛化损失略高于训练损失,但泛化损失并没有太大,模型也能有非常好的效果(只是离最佳状态稍微过火了一点点)。因此,宁可略微过拟合,也不要欠拟合。
  4. 过拟合一定是坏事吗?表面看上去是的,模型泛化能力不佳,应用时可能就会出问题。但!万一有一种数据集,可以保证它的分布和隐含的数据总体分布一致呢?比如NLP领域的预训练,就是要在预训练数据上让模型达到过拟合状态,因为人类的文字和语言意义就是那些,学完了就了事了。但CV领域并不是这样,似乎很难有某种数据集能和世间图像数据的总体分布达到一致,这也是CV领域预训练技术的难题之一。

总结

本文试图:

  1. 从多层感知机的问题出发,引出深度学习算法。
  2. 对深度学习算法的基本组成介绍明白。
  3. 深度学习实现效果的总体评价方法做一个介绍。

诚然,时至今日 深度学习是一个较大的计算机科学领域了。深度学习领域又可以分为若干小领域。

按应用场景分:CV、NLP、数据分析…(每个应用场景又分出好多细分领域…)

按算法分:CV的卷积神经网络、NLP的transformer/注意力机制、强化学习…(每个算法也有若干细分算法,适用于各种应用场景)

那么多场景,那么多算法;可能对于每个深度学习从业个体而言 不论是做科研还是工程,第一件要做的事情就是搞清楚自己的细分应用场景+适用的几种算法。以此为中心,向下深挖、向周围辐射,加自己在深度学习领域的认识深度和广度,更好地体会深度学习对我们生活的影响和改变。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/35258.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java安全——安全提供者

Java安全 安全提供者 在Java中,安全提供者(Security Provider)是一种实现了特定安全服务的软件模块。它提供了一系列的加密、解密、签名、验证和随机数生成等安全功能。安全提供者基础设施在Java中的作用是为开发人员提供一种扩展和替换标准…

Java性能权威指南-总结26

Java性能权威指南-总结26 数据库性能的最佳实践异常日志 数据库性能的最佳实践 异常 Java的异常处理一直有代价高昂的坏名声。其代价确实比处理正常的控制流高一些,不过在大多数情况下,这种代价并不值得浪费精力去绕过。另一方面,因为异常处…

【面试】美团面试真题和答案

文章目录 前言1.线程池有几种实现方式?2.线程池的参数含义?3.锁升级的过程?4.i 如何保证线程安全?5.HashMap和ConcurrentHashMap有什么区别?6.Autowired和Resource区别?7.说说常用的设计模式8.Redis为什么这…

SpringBoot2+Vue2实战(十二)springboot一对一,一对多查询

新建数据库表 Course Data TableName("t_course") public class Course implements Serializable {private static final long serialVersionUID 1L;/*** id*/TableId(value "id", type IdType.AUTO)private Integer id;/*** 课程名称*/private String…

微信小程序制作 购物商城首页 【内包含源码】

1、实现效果 手机效果预览,这里的首页使用到了轮播图。页面图片数据可以替换成自己的数据。 2、开发者工具效果图 3、项目的目录结构 4、首页核心代码 4.1 index.js 这里用来存放数据,页面的数据。目前是假数据,也可以调用接口接收真实数据 // index.jsimport {request }…

【我的创作纪念日】关于某站的音频爬虫+GUI

文章目录 一、前言&机遇二、爬虫代码三、爬虫GUI四、文件打包五、结果展示未来可期 一、前言&机遇 许久没看私信内容,一上线就看到了官方的私信,我已经来到CSDN1024天啦! 想到注册这个号的初衷是学习记录爬虫,后面渐渐变…

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 3 日论文合集)

文章目录 一、检测相关(9篇)1.1 Federated Ensemble YOLOv5 - A Better Generalized Object Detection Algorithm1.2 Zero-shot Nuclei Detection via Visual-Language Pre-trained Models1.3 Federated Object Detection for Quality Inspection in Shared Production1.4 Comp…

【数据科学和可视化】反思十年数据科学和可视化工具的未来

数据科学在过去十年中呈爆炸式增长,改变了我们开展业务的方式,并让下一代年轻人为未来的工作做好准备。但是这种快速增长伴随着对数据科学工作的不断发展的理解,这导致我们在如何使用数据科学从我们的大量数据中获得可操作的见解方面存在很多…

Django的数据库配置、生成(创建)过程、写入数据、查看数据的学习过程记录

目录 01-配置数据库信息02-安装Python的MySQL数据库驱动程序 mysqlclient03-安装Mysql,并启动Mysql04-定义Django的数据库模型(定义数据表-编写models.py文件)05-按照数据的配置生成数据库(执行迁移命令)05-01-生成迁移执行文件05-02-执行数据库模型迁移 06-查看数据…

git bash 命令行反应慢、卡顿

1. 在Windows11的电脑上安装了git 后,鼠标右键打开git bash here,打开窗口缓慢,输入命令也慢的要死,如果安装git的时候选择在桌面创建图标,通过桌面图标打开也是一样的 2. 最简单的ls 命令,都要停顿半秒 3.…

m4a音频格式转换器:让音频轻松换装

大家有没有遇到这样的情况——你下载了一个很酷的音频文件,但是播放设备却说“不认识”这个格式?别担心!现在有个超级厉害的工具可以帮你解决这个问题,它就是m4a音频格式转换器!它能让你的音频文件变身,适应…

TiDB(2):TiDB架构特性

1 TiDB 整体架构 TiDB 集群主要包括三个核心组件:TiDB Server,PD Server 和 TiKV Server。此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件和简化云上部署管理的 TiDB Operator 组件。 架构图解 1.1 TiDB Server TiDB Server 负责接收…

技术服务企业缺成本票,所得税高怎么解决?可有良策?

技术服务企业缺成本票,所得税高怎么解决?可有良策? 《税筹顾问》专注于园区招商、企业税务筹划,合理合规助力企业节税! 技术服务型企业最核心的价值就是为客户提供技术支撑,而这类型的企业在税务方面面临的…

CSRF漏洞复现

目录 CSRF产生的条件CSRF漏洞分类CSRF漏洞危害CSRF漏洞检测CSRF漏洞修复方案利用靶场CSRF-Minefield-V1.0漏洞复现 CSRF产生的条件 一、被攻击者在登陆了web网页,并且在本地生成了cookie 二、在cookie未过期的情况下,利用同一个浏览器访问了攻击者的页…

最新版Flink CDC MySQL同步Elasticsearch(一)

1.环境准备 首先我们要基于Flink CDC MySQL同步MySQL的环境基础上(flink-1.17.1、Java8、MySQL8)搭建Elasticsearch7-17-10和Kibana 7.17.10。笔者已经搭建好环境,这里不做具体演示了,如果需要Es的搭建教程情况笔者其他博客 注意…

JVM源码剖析之Java对象创建过程

关于 "Java的对象创建" 这个话题分布在各种论坛、各种帖子,文章的水平参差不齐。并且大部分仅仅是总结 "面试宝典" 的流程,小部分就是copy其他帖子,极少能看到拿源码作为论证。所以特意写下这篇文章。 版本信息如下&…

Eclipse显示层级目录结构(像IDEA一样)

有的小伙伴使用IDEA习惯了,可能进入公司里面要求使用eclipse,但是eclipse默认目录是并列显示,而不是层级显示。部分人用起来感觉十分不方便。我们可以更改一下设置。 1、打开eclipse,找到这里 2、选择PackagePresentation 3、选…

Github-提交PR指南

1. Fork你将要提交PR的repo 2. 将你fork下来的repo克隆到你的本地 git clone your_repo.git Cloning into ultralytics... remote: Enumerating objects: 8834, done. remote: Counting objects: 100% (177/177), done. remote: Compressing objects: 100% (112/112), done. …

第二步:STM32F407ZGT6资源介绍

1.1 STM32F407ZGT6资源描述 内核: 32位 高性能ARM Cortex-M4处理器 时钟:高达168M,实际还可以超屏一点点 支持FPU(浮点运算)和DSP指令 IO口: STM32F407ZGT6: 144引脚 114个IO 大部分IO口都耐5V(模拟通道除外) …

C# .NET 如何调用 SAP RFC 接口

1.分析传参结构 SAP 传参格式对应 .NET 参数格式 SAP 参数.NET 参数参数类型import(导入)——关联类型为数据元素Param单个变量参数import(导出)——关联类型为结构体Struct结构体tableTable表 下面是 SAP 对应参数类型: 2.web.config 配置 配置文件需要客户端…