【自然语言处理】P4 神经网络基础 - 激活函数

目录

  • 激活函数
  • Sigmoid
  • Tanh
  • ReLU
  • Softmax

本节博文介绍四大激活函数,Sigmoid、Tanh、ReLU、Softmax。

激活函数

为什么深度学习需要激活函数?

博主认为,最重要的是 引入非线性

神经网络是将众多神经元相互连接形成的网络。如果神经元没有激活函数,那么网络模型都将退化成为线性模型,从而失去了处理非线性问题的能力。非线性问题,如视觉识别、语音识别、图像识别等等。

当神经网络具有处理非线性的能力后,将会提高模型的 表达能力 以及 泛化能力:神经网络能够更有效地学习数据中的复杂模式和函数关系,更好地学习数据的通用特征,从而提高模型在数据上的表达能力和泛化能力。

此外,激活函数还可 提高训练效率,如 ReLU 因为在计算梯度时更为简单快速,可以加速神经网络的训练过程;确保网络的稳定性,防止梯度消失或爆炸等问题。

下面,博文将依次介绍四个激活函数以及其特征。


Sigmoid

Sigmoid 函数将任意实数 x 映射到 (0, 1) 区间内。数学上,Sigmoid 函数表示为:
f ( x ) = 1 1 + e − x f(x)=\frac {1} {1+e^{-x}} f(x)=1+ex1

Python Sigmoid 激活函数实现与绘图:

import torch
import matplotlib.pyplot as plt

x = torch.range(-5., 5., 0.1)
y = torch.sigmoid(x)
plt.plot(x.numpy(), y.numpy())
plt.show()

在这里插入图片描述

Sigmoid 函数的一些优点包括:

  1. 输出范围限定在 (0, 1) 之间,便于表示概率;
  2. 函数是连续可微的,有利于梯度的计算;
  3. 在二分类问题中,可以将输出值直接解读为概率。

Sigmoid 函数的一些缺点包括:

  1. 当输入值接近极值时,梯度会变得非常小,导致梯度消失问题,影响深层网络的训练;
  2. 计算量相对较大,尤其对于大规模数据集和深层网络。

Tanh

Tanh 激活函数是 Sigmoid 函数的一个变体,tanh 的函数表达式如下:
f ( x ) = t a n h ( x ) = e x − e − x e x + e − x f(x)=tanh(x)= \frac {e^x-e^{-x}} {e^x+e^{-x}} f(x)=tanh(x)=ex+exexex

Python Tanh 激活函数实现与绘图:

import torch
import matplotlib.pyplot as plt

x = torch.range(-5., 5., 0.1)
y = torch.tanh(x)
plt.plot(x.numpy(), y.numpy())
plt.show()

在这里插入图片描述

Tanh 激活函数有两个优点:

  1. Tanh 的输出范围为 (-1, 1),相比 sigmoid 函数的 (0, 1) 范围更广,从而使得网络可以更容易地处理梯度消失地问题;
  2. Tanh 在原点处的梯度为1,有助于神经网络训练过程。

Tanh 激活函数的不足:

  1. 当输入值很大或者很小时,Tanh 函数的梯度会变得很小,会导致训练过程中梯度消失。

在实际应用中,Tanh 函数通常用于隐藏层,而不是输出层。如果网络的输出层需要输出概率值,通常会使用 Softmax 函数而不是 Tanh。


ReLU

ReLU 激活函数是深度学习领域应用极其广泛的一种非线性激活函数。ReLU 的地位极其高,许多在深度学习领域的创新都是基于其。ReLU 函数表达式很简单,为:
f ( x ) = m a x ( 0 , x ) f(x)=max(0, x) f(x)=max(0,x)

Python ReLU 激活函数的实现与绘图:

import torch
import matplotlib.pyplot as plt

relu = torch.nn.ReLU()
x = torch.range(-5., 5., 0.1)
y = relu(x)

plt.plot(x.numpy(), y.numpy())
plt.show()

在这里插入图片描述

ReLU 激活函数的优点:

  1. 计算效率高,由于 ReLU 函数的简单性,其计算速度非常快,这使得其成为训练深度神经网络的首选激活函数;
  2. 缓解梯度消失问题:在传统的 Sigmoid 以及 Tanh 激活函数中,当输入值很大时,梯度会变得非常小,导致梯度消失问题。而 ReLU 激活函数在输入大于零时,梯度始终为 1,这大大减少了梯度消失的问题,使得反向传播更加有效;
  3. 稀疏性:ReLU 激活函数的性质使得只有少数的神经元会被激活,这对降低模型的复杂性和提高计算的效率有很大帮助;

ReLU 激活函数的缺点:

  1. ReLU 梯度“Death”:当输入值小于零时,对应的神经元将不会更新权重,因为梯度为零。在某些情况下,这可能会导致网络性能下降;
  2. Leaky ReLU 变体:为了解决 ReLU 梯度"Death" 现象,研究者提出 Leaky ReLU。其在负区间引入了一个小的斜率,这样即使输入是负的,也不会导致梯度为零。

Python Leaky ReLU 激活函数的实现与绘图:

import matplotlib.pyplot as plt
import numpy as np

# 定义PReLU函数
def prelu(x, alpha):
    return np.maximum(0, x) + alpha * np.minimum(0, x)

# 设置输入值的范围
x = np.linspace(-10, 10, 100)

# 创建一个α值的列表,例如对于每个输入通道α可以是不同的
alphas = [0.1, 0.5, 1.0, 2.0]

# 绘制PReLU函数的图像
for alpha in alphas:
    y = prelu(x, alpha)
    plt.plot(x, y, label=f'α={alpha}')

# 添加图例
plt.legend()

# 显示图像
plt.show()

在这里插入图片描述


Softmax

Softmax 激活函数可以定义为一个指数函数的归一化形式。假设神经网络的输出是一个 K 维的实数向量, z = [ z 1 , z 2 , . . . , z k ] z = [z_1, z_2, ..., z_k] z=[z1,z2,...,zk],Softmax 激活函数将向量转换为一个概率分布向量,其中公式为:
s o f t m a x ( z i ) = e z i ∑ j = 1 K e z j softmax(z_i)=\frac {e^{z_i}} {\sum ^K _{j=1} e^{z_j}} softmax(zi)=j=1Kezjezi

其中 e z i e^{z_i} ezi z i z_i zi 的指数,分母是所有指数的和。

Softmax 激活函数的特点:

  1. 概率分布:激活函数将输入向量的每个函数转化为一个概率值,表示输入属于对应类型的概率;
  2. 非负性:Softmax 激活函数的输出对于所有的输入都是非负的;
  3. 归一化:所有概率值的总和等于1,满足了概率分布的规范性要求;

Python Softmax 激活函数的实现:

# 方法一:通过 torch.nn 实现:
import torch.nn as nn

softmax = nn.Softmax(dim=1)
x = ...
y = softmax(x)

# 方法二:自己写函数:
def softmax(z):
    # 防止指数运算时溢出,通过减去每行的最大值来进行数值稳定化
    e_z = np.exp(z - np.max(z, axis=-1, keepdims=True))
    return e_z / np.sum(e_z, axis=-1, keepdims=True)

Softmax 激活函数的优点:

  1. 优化梯度:Softmax 基于指数函数,所以其导数就是其本身。这使得 Softmax 在反向传播时更好地保持梯度信息,缓解梯度消失的问题。

Softmax 激活函数的缺点:

  1. 计算复杂性:明显,Softmax 激活函数计算相当复杂,这意味着模型输出层需要存储和计算更多的参数,导致内存占用增加;
  2. 训练效率:虽然 Softmax 的梯度计算相对简单,但是在反向传播过程中,由于需要计算概率分布,可能会导致训练效率的降低,尤其是在处理大量数据时;
  3. 局部最优:在某些情况下,Softmax 可能会导致模型陷入局部最优。

Softmax 激活函数由于其概率解释性和在多分类问题中的有效性,其虽然存在诸多潜在的缺点,但仍然是深度学习和机器学习领域广泛使用的一种激活函数。


以上便是四种激活函数的简要介绍。
如有任何疑问,欢迎读者前来探讨!
谢谢!
2024年2月4日

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/371019.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Spring】Spring 启示录

一、OCP 开闭原则 核⼼:在扩展系统功能时不需要修改原先写好的代码,就是符合OCP原则的,反之修改了原先写好的代码,则违背了OCP原则的 若在扩展系统功能时修改原先稳定运⾏程序,原先的所有程序都需要进⾏重新测试&…

【RT-DETR有效改进】利用SENetV1重构化网络结构 (ILSVRC冠军得主)

👑欢迎大家订阅本专栏,一起学习RT-DETR👑 一、本文介绍 本文给大家带来的改进机制是SENet(Squeeze-and-Excitation Networks)其是一种通过调整卷积网络中的通道关系来提升性能的网络结构。SENet并不是一个独立的网络模型,而是一个可以和现有的任何一个模型相结合…

Spark Shuffle Service简介与测试

一 Dynamic Resource Allocation(动态资源分配) 了解Shuffle Service之前,我们需要先了解和Shuffle Service有关的另一个特性:动态资源分配。 Spark管理资源有两种方式:静态资源分配和动态资源分配。 静态资源分配:spark提交任…

FastAdmin青动CRM-E售后

应用介绍 一款基于FastAdminThinkPHP和uniapp开发的CRM售后管理系统,旨在助力企业销售售后全流程精细化、数字化管理,主要功能:客户、合同、工单、任务、报价、产品、库存、出纳、收费,适用于:服装鞋帽、化妆品、机械机…

数据描述的统计量解释-上

目录 一.导读 二.介绍 ①算数平均数 ②几何平均数 ③标准差 ④变异系数 ⑤分位数 ⑥方差 三.结尾 一.导读 在讲到数据描述的时候,我们提及了数据集中位置、离散程度、偏度和峰度以及单个数据变量的分布情况。而在这些当中,我们遇到了一些统计量…

机器学习系列——(十)支持向量机

一、背景 支持向量机(Support Vector Machine,SVM)是一种用于分类、回归和离群点检测等领域的监督学习方法。它最初由Vapnik和Cortes在1995年提出,被认为是机器学习领域中最成功的算法之一。 二、原理 2.1 线性SVM 我们先从最简…

openssl3.2 - use openssl cmd create ca and p12

文章目录 openssl3.2 - use openssl cmd create ca and p12概述笔记实验的openssl环境建立CA生成私钥和证书请求生成CA证书用CA签发应用证书用CA对应用证书进行签名将已经签名好的PEM证书封装为P12证书验证P12证书是否可用END openssl3.2 - use openssl cmd create ca and p12 …

Kafka系列(二)将消息数据写入Kafka系统--生产者【异步发送、同步发送、单线程发送、多线程发送、配置生产者属性、自定义序列化、自定义主题分区】

Kafka系列 发送消息到 Kafka 主题了解异步模式了解同步模式线程发送消息的步骤生产者用单线程发送消息生产者用多线程发送消息 配置生产者属性保存对象的各个属性一序列化序列化一个对象序列化对象的存储格式自己实现 序列化的步骤1. 创建序列化对象2. 编写序列化工具类3. 编写…

企业级大数据安全架构(九)FreeIPA管理员密码忘记后如何修改

作者:楼高 1重置Directory Server管理员密码 1.1停止directory server服务 [rootipa schema]# start-dirsrv HDP-HADOOP 如果你不知道你的实例名,可以通过如下方式获取 1.2生成一个新的HASH密码 停止服务后使用pwdhash命令生成一个新的HASH密码 [r…

HashMap的put和get流程

一、put流程图 首先进行哈希值的扰动,获取一个新的哈希值。(key null) ? 0 : (h key.hashCode()) ^ (h >>> 16); 判断tab是否位空或者长度为0,如果是则进行扩容操作。 if ((tab table) null || (n tab.length) 0)n (tab resize()).l…

JAVASE进阶:Collection高级(2)——源码剖析ArrayList、LinkedList、迭代器

👨‍🎓作者简介:一位大四、研0学生,正在努力准备大四暑假的实习 🌌上期文章:JAVASE进阶:Collection高级(1)——源码分析contains方法、lambda遍历集合 📚订阅…

Java学习-内部类

内部类概述 1.成员内部类 注意: 2.静态内部类 3.局部内部类(看看就行) 4.匿名内部类 应用场景:通常作为一个参数传给方法 Eg.小猫和小狗都参加游泳比赛

图解支付-金融级密钥管理系统:构建支付系统的安全基石

经常在网上看到某某公司几千万的个人敏感信息被泄露,这要是放在持牌的支付公司,可能就是一个非常大的麻烦,不但会失去用户的信任,而且可能会被吊销牌照。而现实情况是很多公司的技术研发人员并没有足够深的安全架构经验来设计一套…

使用WPS制作三线表

点击边框和底纹点击1、2、3、4并且应用于表格点击确定 再次选中表格点击右键表格属性选择边框和底纹 选中表格第一行右键点击表格属性选择边框和底纹 如果表格中存在虚线

用户访问一个购物网站时TCP/IP五层参考模型中每一层的功能

当用户访问一个购物网站时,网络上的每一层都会涉及不同的协议,具体网络模型如下图所示。 以下是每个网络层及其相关的协议示例: 物理层:负责将比特流传输到物理媒介上,例如电缆或无线信号。所以在物理层,可…

调用其他数据库,事务回滚

1、定时 JDBC 的事务 2、事务提交 3、事务回滚 样例 Transactional(propagation Propagation.REQUIRES_NEW)RequestMapping(value "/ix_work_order", method RequestMethod.POST, consumes MediaType.APPLICATION_JSON_VALUE,produces MediaType.APPLICATION_…

spring boot3x登录开发-上(整合jwt)

⛰️个人主页: 蒾酒 🔥系列专栏:《spring boot实战》 🌊山高路远,行路漫漫,终有归途。 目录 前置条件 jwt简介 导依赖 编写jwt工具类 1.配置项直接嵌入代码,通过类名.静态方法使用 2.配置项写到…

大数据 - Spark系列《三》- 加载各种数据源创建RDD

Spark系列文章: 大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进-CSDN博客 大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客 目录 3.1🧀加载文件(本地) 1. 加载本地文件路径 🌮使用te…

让IIS支持SSE (Server Sent Events)

本文只探讨IISPython网站的情况,对于asp.net也应该不用这么麻烦。 先上结论:用反向代理: IIS URL Rewrite waitress Waitress是一个纯python编写独立的WSGI服务器,功能比Gunicorn弱一些,但可以运行在windows平台上&…

基于springboot智慧养老平台源码和论文

首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要包罗软件架构模式、整体功能模块、数据库设计。本项…