掌握激活函数(一):深度学习的成功之源

文章目录

  • 引言
  • 基本概念
  • 常用激活函数举例
    • Sigmoid激活函数
      • 公式
      • Sigmoid函数的数学特性
      • 示例
        • 基于NumPy和PyTorch实现Sigmoid函数
        • 将Sigmoid函数应用于二分类任务
      • Sigmoid激活函数的局限性举例
    • ReLU激活函数
      • 公式
      • ReLU函数的数学特性
      • ReLU函数的特点
      • 示例
        • 基于NumPy和PyTorch实现ReLU函数
        • 搭建基于ReLU函数的卷积神经网络(CNN)
  • 结束语

引言

深度学习作为人工智能领域的一颗璀璨之星,其背后的神经网络模型是无数智能应用的基石。而在这些神经网络中,激活函数担任了不可或缺的角色。它们如同魔法一般,为神经网络带来了非线性特性,使其能够学习和模拟复杂的现实世界模式。没有激活函数,深度学习模型充其量只是一堆线性回归的堆叠。本文将带您逐渐深入掌握激活函数的原理、类型以及在深度学习中的应用,让您真正领略这背后的“魔法”之源。


基本概念

激活函数,也称为非线性激活函数,是神经网络中每一层的输出函数。在神经网络的构建中,激活函数发挥着至关重要的作用。它不仅赋予了神经元非线性特性,使得神经网络能够学习和模拟复杂的、非线性的数据模式,更是神经网络表达能力的核心驱动力。没有激活函数,神经网络将仅能执行线性的计算,极大地限制了其应用范围和表达能力。


常用激活函数举例

Sigmoid激活函数

Sigmoid函数是一种非常常用的激活函数,它可以将任何输入值映射到0到1之间。这个特性使得Sigmoid函数在二分类问题中特别受欢迎,因为输出可以被解释为属于某一类的概率

公式

Sigmoid函数的数学特性

特性描述
非线性Sigmoid函数可以将输入映射到0-1之间的任意值,允许神经网络学习和模拟复杂的非线性模式。
饱和性当输入值远离0时,Sigmoid函数的输出会非常接近0或1,这种现象称为饱和。
可微分性Sigmoid函数是连续且可微的,这意味着基于梯度的优化算法(如反向传播)能够有效地用于训练神经网络。

示例

基于NumPy和PyTorch实现Sigmoid函数
# 基于NumPy实现Sigmoid函数
import numpy as np

def sigmoid(x):
    # 将输入值转换为浮点数
    x = np.float32(x)
    # 计算sigmoid值
    return 1 / (1 + np.exp(-x))

# 基于PyTorch实现Sigmoid函数(使用PyTorch的内置函数torch.sigmoid())
import torch  
  
# 创建一个张量  
x = torch.tensor([-1.0, 0.0, 1.0])  
  
# 应用sigmoid函数  
y = torch.sigmoid(x)  
  
print(y)

# 基于PyTorch实现Sigmoid函数(手动实现)
import torch  

def sigmoid(x):  
    return 1 / (1 + torch.exp(-x))
  
# 创建一个张量  
x = torch.tensor([-1.0, 0.0, 1.0])

# 应用sigmoid函数  
y = sigmoid(x)  
将Sigmoid函数应用于二分类任务
import torch  
import torch.nn as nn  
import torchvision.transforms as transforms  
import torchvision.datasets as datasets  
  
# 定义超参数  
input_size = 784       # 输入图像的维度(28*28)  
hidden_size = 100       # 隐藏层的大小  
num_epochs = 10           # 训练周期数  
batch_size = 100           # 批处理大小  
learning_rate = 0.001       # 学习率  
  
# 加载数据集并进行预处理  
transform = ... # 待定
train_dataset = ... # 待定
test_dataset = ... # 待定
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True)  
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=batch_size, shuffle=False)  
  
# 定义模型结构  
class NeuralNetwork(nn.Module):  
    def __init__(self, input_size, hidden_size):  
        super(NeuralNetwork, self).__init__()  
        self.fc1 = nn.Linear(input_size, hidden_size)   
        self.relu = nn.ReLU()  
        self.fc2 = nn.Linear(hidden_size, 1)    
        self.sigmoid = nn.Sigmoid()  # 添加Sigmoid激活函数  
      
    def forward(self, x):  
        out = self.fc1(x)  
        out = self.relu(out)  
        out = self.fc2(out)  
        out = self.sigmoid(out)  # 在输出层使用Sigmoid激活函数  
        return out  
  
# 实例化模型、损失函数和优化器  
model = NeuralNetwork(input_size, hidden_size)  
criterion = ... # 待定
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)  # 使用Adam优化器  
  
# 训练模型  
for epoch in range(num_epochs):  
    for i, (images, labels) in enumerate(train_loader):  # 遍历每个批次的数据  
        # 将图像张量转换为2D张量(矩阵)形式,并作为模型的输入  
        inputs = images.view(-1, input_size)  
        labels = labels.long()  # 将标签转换为长整数型张量  
          
        # 前向传播,计算输出结果  
        outputs = model(inputs)  
        loss = criterion(outputs, labels)  # 计算损失值  
          
        # 反向传播,更新权重参数  
        optimizer.zero_grad()  # 清空梯度缓存,以便计算新的梯度值  
        loss.backward()  # 计算梯度值并累积在模型参数上  
        optimizer.step()  # 更新模型参数  
          

Sigmoid激活函数的局限性举例

Sigmoid函数在深度学习模型中作为激活函数使用,其局限性主要表现在以下几个方面:

  1. 梯度消失问题:当输入值非常大或非常小时,Sigmoid函数的导数趋近于0。在深度神经网络中,误差反向传播时,梯度会逐层乘以激活函数的导数。当层数较深时,梯度的连乘可能导致梯度变得非常小,甚至接近于0,使得参数无法有效更新,这就是所谓的梯度消失问题
  2. 输出非0均值:Sigmoid函数的输出值恒大于0,不是0均值的。这会导致后层的神经元的输入是非0均值的信号,对梯度产生影响,进而影响网络的收敛速度(参考链接)。
  3. 容易饱和:Sigmoid函数在输入值较大或较小时容易进入饱和区,此时函数的输出对输入的变化不敏感,可能导致模型训练困难。

ReLU激活函数

和Sigmoid函数一样,ReLU(Rectified Linear Unit)函数也是非常常用的激活函数。它将负值映射为0,对于正值则直接输出其本身。

公式

ReLU函数的数学特性

特性描述
简单性ReLU函数仅需比较输入值和0的大小来确定输出值,计算效率高。
非线性ReLU函数实际上是非线性的,能够引入非线性因素,增强模型的表达能力。
激活稀疏性当输入值小于0时,ReLU函数的输出为0,只激活输入中的一部分神经元,增强模型的泛化能力和鲁棒性。
缓解梯度消失问题与传统的激活函数(如Sigmoid)相比,ReLU有助于缓解梯度消失问题,因为它的梯度在正区间为1,有助于更好地传播梯度。

ReLU函数的特点

  1. 线性与非线性:ReLU函数在输入值大于0时表现为线性函数,即f(x)=x,这有助于提高计算速度。而在输入值小于或等于0时,ReLU函数表现为非线性,即输出值为0。这种线性与非线性的结合使得ReLU函数在深度学习中具有很好的性能。

  2. 简单高效:ReLU函数的计算过程非常简单,只需要一次比较操作和一次赋值操作,因此计算速度非常快。这使得ReLU函数在训练深度神经网络时非常高效,可以显著加速模型的收敛速度。

  3. 缓解梯度消失问题:与Sigmoid等激活函数相比,ReLU激活函数的梯度在反向传播过程中不会消失,有助于提高训练速度和模型的收敛效果。

  4. 神经元"死亡"问题:与Sigmoid函数类似,ReLU函数也可能导致某些神经元在训练过程中始终处于"死亡"状态(即输出值一直为0),这可能会影响模型的性能。为了解决这个问题,一些变体的ReLU激活函数也被开发出来,如Leaky ReLU和Parametric ReLU等。

示例

基于NumPy和PyTorch实现ReLU函数
# 基于NumPy实现ReLU函数
import numpy as np  
  
def relu(x):  
    return np.maximum(0, x)
    
# 基于PyTorch实现ReLU函数(使用PyTorch的内置函数F.relu())
import torch.nn.functional as F
  
# 创建一个张量  
x = torch.tensor([-1.0, 0.0, 1.0])  
  
# 应用sigmoid函数  
y = F.relu(x)
  
print(y)
搭建基于ReLU函数的卷积神经网络(CNN)
import torch  
import torch.nn as nn  
  
# 定义一个简单的卷积神经网络  
class SimpleCNN(nn.Module):  
    def __init__(self):  
        super(SimpleCNN, self).__init__()  
        # 第一个卷积层,使用32个3x3的卷积核,输入通道数为1,输出通道数为32,ReLU激活函数  
        self.conv1 = nn.Conv2d(1, 32, 3, padding=1)  
        # 第二个卷积层,使用64个3x3的卷积核,输入通道数为32,输出通道数为64,ReLU激活函数  
        self.conv2 = nn.Conv2d(32, 64, 3, padding=1)  
        # 全连接层,输入节点数为64*7*7(假设输入图像大小为28x28),输出节点数为10(假设有10个类别)  
        self.fc = nn.Linear(64 * 7 * 7, 10)  
        # 输出层,全连接层的输出作为输入,输出节点数为10,使用softmax激活函数  
        self.out = nn.LogSoftmax(dim=1)  
  
    def forward(self, x):  
        # 通过第一个卷积层和ReLU激活函数  
        x = self.conv1(x)  
        x = nn.functional.relu(x)  
        # 通过第二个卷积层和ReLU激活函数  
        x = self.conv2(x)  
        x = nn.functional.relu(x)  
        # 将卷积层的输出展平,作为全连接层的输入  
        x = x.view(x.size(0), -1)  
        # 通过全连接层和softmax激活函数  
        x = self.fc(x)  
        x = self.out(x)  
        return x

在这个示例中:

  • 我们定义了一个名为SimpleCNN的类,继承自nn.Module。这是PyTorch中定义神经网络的标准方式。
  • __init__方法中,我们定义了网络中的各个层。首先有两个卷积层,每个卷积层后都使用了ReLU激活函数。然后是一个全连接层,最后是一个输出层。
  • forward方法中,我们定义了数据在网络中的前向传播过程。数据首先通过两个卷积层和ReLU激活函数,然后被展平以便输入全连接层,最后通过全连接层和输出层。
  • 我们使用了nn.functional模块中的函数来应用ReLU激活函数(nn.functional.relu)和Softmax激活函数(nn.functional.log_softmax)。注意,ReLU激活函数的参数默认为0,因此不需要额外指定。

结束语

  • 亲爱的读者,感谢您花时间阅读我们的博客。我们非常重视您的反馈和意见,因此在这里鼓励您对我们的博客进行评论。
  • 您的建议和看法对我们来说非常重要,这有助于我们更好地了解您的需求,并提供更高质量的内容和服务。
  • 无论您是喜欢我们的博客还是对其有任何疑问或建议,我们都非常期待您的留言。让我们一起互动,共同进步!谢谢您的支持和参与!
  • 我会坚持不懈地创作,并持续优化博文质量,为您提供更好的阅读体验。
  • 谢谢您的阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/275622.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言——数据在内存中的存储【整型数据在内存中的储存,大小端字节序储存,浮点型数据在内存中的储存】

📝前言: 在前面的三篇文章中我们已经完成了对字符函数和字符串函数的学习,现在就让我们探索新领域,更加深入的理解**数据在内存中的存储方式**: 1,整数在内存中的存储 2,⼤⼩端字节序存储 3&…

GitOps实践指南:GitOps能为我们带来什么?

Git,作为开发过程中的核心工具,提供了强大的版本控制功能。即便在写代码的时候稍微手抖一下,我们也能通过 Git 的差异对比(diff)轻松追踪到庞大工程中的问题,确保代码的准确与可靠。这种无与伦比的自省能力…

FreeRTOS中断、临界区和任务调度器

一、中断 中断是 CPU 的一种常见特性,中断一般由硬件产生,当中断发生后,会中断 CPU 当前正 在执行的程序而跳转到中断对应的服务程序种去执行,ARM Cortex-M 内核的 MCU 具有一个 用于中断管理的嵌套向量中断控制器NVIC。ARM Cort…

【数据库】为什么要分库分表

为什么要分库分表 1.为什么要分库分表?2.垂直拆分3.水平拆分4.总结4.1 逻辑库和物理库4.2 逻辑表和物理表 1.为什么要分库分表? 随着近些年信息化大跃进,各行各业无纸化办公产生了大量的数据,而越来越多的数据存入了数据库中。当…

Vue 问题解决

一、问题:TypeError: (0 , _message.default) is not a function 当没有default时,在其他页面import引入的时,必须加{}。 二、问题:Vue前端页面的表格数据总是一行一行的显示 使用Async/Await来解决前端数据一行一行显示的问题。可以将获取部…

python 实现粒子群算法(带绘制)

本文章用python实现了粒子群算法, 标准PSO的算法流程如下: 初始化一群微粒(群体规模为m),包括随机的位置和速度;评价每个微粒的适应度;对每个微粒,将它的适应值和它经历过的最好位…

众和策略股市行情分析:股票开户后什么时候能交易?

股票开户后什么时候能生意? 股票开户后不才一生意日便能正常展开生意操作,包含申报股票生意及非生意事务。假设投资者是周五或接近节假期时结束的开户,就要不才周一或假期结束后才华进行生意。 当然,假设投资者注册的是一些特别…

BDD - Python Behave 配置文件 behave.ini

BDD - Python Behave 配置文件 behave.ini 引言behave.ini配置参数的类型配置项 behave.ini 应用feature 文件step 文件创建 behave.ini执行 Behave 引言 前面文章 《BDD - Python Behave Runner Script》就是为了每次执行 Behave 时不用手动敲一长串选项,其实还有…

《深入理解C++11:C++11新特性解析与应用》笔记四

第四章 新手易学,老兵易用 4.1 右尖括号>的改进 在 C98 中,有一条需要程序员规避的规则:如果在实例化模板的时候出现了连续的两个右尖括号 >,那么它们之间需要一个空格来进行分隔,以避免发生编译时的错误。C98 会将>&g…

【量化】蜘蛛网策略复现

文章目录 蜘蛛网策略研报概述持仓数据整理三大商品交易所的数据统一筛选共有会员清洗数据计算研报要求数据全部代码 策略结果分析无参数策略有参数策略正做反做 MSD技术指标化 蜘蛛网策略 策略来自《东方证券-股指期货趋势交易之蜘蛛网策略——从成交持仓表中捕捉知情投资者行为…

腾讯云轻量应用服务器详细介绍

腾讯云轻量应用服务器开箱即用、运维简单的轻量级云服务器,CPU内存带宽配置高并且价格特别优惠,轻量2核2G3M带宽62元一年、2核2G4M优惠价118元一年,540元三年、2核4G5M带宽218元一年,756元3年、4核8G12M带宽646元15个月等&#xf…

Linux操作系统:LVM与磁盘配额

目录 一、LVM逻辑卷管理基础 1、LVM逻辑卷管理的概念 2、LVM逻辑卷管理的核心组件 3、LVM逻辑卷管理的优势 4、LVM逻辑卷管理的命令 4.1 扫描命令的用法 4.1.1 pvscan 4.1.2 vgscan 4.1.3 lvscan 4.2 查看命令的用法 4.2.1 pvdisplay 4.2.2 vgdisplay 4.2.3 lvdis…

12.27_黑马数据结构与算法笔记Java(补2)

目录 279 0-1 背包问题 动态规划 实现 280 0-1 背包问题 动态规划 降维 281 完全背包问题 动态规划 分析 282 完全背包问题 动态规划 实现 283 零钱兑换问题 动态规划 分析 284 零钱兑换问题 动态规划 实现 285 零钱兑换问题 动态规划 降维 286 零钱兑换II 动态规划 分析…

【idea】运行工程时候卡了许久Java Method Breakpoints

老以为是数据库连接不上,此问题概率性小,操作上面不小心打了断点… 应该是打断点的时候,打到了方法上面,去掉哟 Java Method Breakpoints

C++day2作业

把课上strcut的练习&#xff0c;尝试着改成class #include <iostream>using namespace std; class Stu { private:int age;string sex;int hign; public:int soce;void get_information();void set_information(); }; void Stu::set_information() {static Stu s1;cout …

C++ DAY2作业

1.课堂struct练习&#xff0c;用class&#xff1b; #include <iostream>using namespace std;class Stu { private:int age;char sex;int high; public:double score;void set_values(int a,char b,int c,double d);int get_age();char get_sex();int get_high(); }; vo…

「从红月开始」运输公司遭精神污染,小十七救哥哥,事发地陷危机

Hello,小伙伴们&#xff0c;我是拾荒君。 国漫《从红月开始》第3集超前爆料&#xff0c;本次透露陆辛首次被派遣去调查精神污染的任务。他的目的地是四方运输公司&#xff0c;一个主要由亡命之徒组成的组织。他们表面上从事运输业务&#xff0c;但背地里进行偷渡和走私活动。 …

【CSAPP】探究BombLab奥秘:Phase_2的解密与实战

&#x1f4cb; 前言 ​&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;《斯坦福大学之CSAPP》⏰诗赋清音&#xff1a;桃花灼灼春风暖&#xff0c;心随乐曲扬徐徐。 苦尽甘来梦未阑&#xff0c;岁月长河任舟游。 ​ &#x1f389;欢迎…

cnPuTTY 0.80.0.1—PuTTY Release 0.80中文版本简单说明~~

2023-12-18 官方发布了PuTTY 0.80本次发布主要是针对Terrapin攻击(CVE-2023-48795)的修改发布。 更多详细的内容请查看PuTTY Change Log。 有关Terrapin攻击可用简单参考&#xff1a;警告&#xff01;&#xff01;&#xff01;Terrapin攻击(CVE-2023-48795)~~~ 为了缓解此漏洞…

【线性代数】通过矩阵乘法得到的线性方程组和原来的线性方程组同解吗?

一、通过矩阵乘法得到的线性方程组和原来的线性方程组同解吗&#xff1f; 如果你进行的矩阵乘法涉及一个线性方程组 Ax b&#xff0c;并且你乘以一个可逆矩阵 M&#xff0c;且产生新的方程组 M(Ax) Mb&#xff0c;那么这两个系统是等价的&#xff1b;它们具有相同的解集。这…