深度学习常用激活函数总结

激活函数的特点

  • 非线性。引入非线性能提升模型的表达能力
  • 可微分。如果激活函数不可微,那就无法使用梯度下降方法更新参数
  • 非饱和性。饱和指在某些区间上激活函数的梯度接近于零,使参数无法更新
  • 取值范围有界。这样可以使网络更稳定,即使有很大的输入,激活函数的输出也不会太大
  • 计算简单。复杂的激活函数会降低训练速度

常用激活函数

1、Sigmoid

公式

优点

  • 适用于将预测概率作为输出的模型
  • 梯度平滑
  • 可微

缺点

  • 存在饱和区间,在该区间内,梯度可能会消失
  • 指数运算,计算量较大
  • 函数输出不以零为均值,模型收敛较慢

2、Tanh

公式

优点

  • 解决了非零均值问题

缺点

  • 存在饱和区间,且饱和区间比sigmoid的更大
  • 指数运算,计算量较大

3、ReLU

公式

优点

  • 在正区间解决了梯度消失问题
  • 计算速度快
  • 将小于0的输入置零,从某种程度上防止过拟合

缺点

  • 非零均值
  • 当输入为负时,ReLU完全失效
  • 某些神经元可能永远不会被激活

4、Leaky ReLU

公式

优点

  • 针对Relu函数中存在的Dead Relu Problem,Leaky Relu函数在输入为负值时,给予输入值一个很小的斜率,在解决了负输入情况下的0梯度问题的基础上,也很好的缓解了Dead Relu问题
  • 该函数的输出为负无穷到正无穷,即leaky扩大了Relu函数的范围

缺点

  • 理论上来说,该函数具有比Relu函数更好的效果,但是大量的实践证明,其效果不稳定,故实际中该函数的应用并不多

5、ELU

公式

优点

  • 解决了Dead ReLU Problem问题
  • 该函数在负数域存在饱和区域,从而对噪声具有一定的鲁棒性

缺点

  • 计算量较大
  • 在实践中同样没有较ReLU更突出的效果,故应用不多

6、Softplus

公式

优点

  • 类似于ReLU

缺点

  • 导数小于1,可能存在梯度消失的问题
  • 计算量较大

7、SiLU

公式

优点

  • 继承了ReLU无上界和有下界的特点
  • 相比ReLU又增加了平滑和非单调的特点

缺点

  • 引入了指数函数,增加了计算量

8、ReLU6

公式

出现原因

  • ReLU6就是把ReLU的最大输出为限制为6(变成有上、下界),这使得模型在移动端设备(dtype=float16/int8,低精度)应用时也能有很好的数值分辨率。如果对ReLU激活范围不加限制,当激活值非常大时,低精度的设备无法很好地描述如此大范围的数值,从而带来精度损失

9、Mish

公式

优点

  • 无上界、有下界
  • 增加了平滑和非单调的特点

缺点

  • 引入了指数函数,增加了计算量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/36747.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SSM项目前后端分离+IDEA运行环境(含前端源码)(个人博客系统)

目录 后端项目环境配置 1、创建一个SpringBoot项目,添加MyBatis框架和数据库MySQL驱动依赖 2、配置项目文件:application.yml 3、创建数据库表 4、创建分层结构目录 返回统一数据格式 创建统一数据格式返回类:AjaxResult 创建实现统一…

软件测试面试题(带答案)

1. 请自我介绍一下(需简单清楚的表述自已的基本情况,在这过程中要展现出自信,对工作有激情,上进,好学) 面试官您好,我叫###,今年26岁,来自广东深圳,就读专业是电子商务,…

Golang学习——string和slice切片

Golang学习——string和slice切片 string整数存储字符存储Unicode存储变长编码规则字符串类型变量的结构字符串变量的修改方式 slice通过make的方式定义变量new底层数组slice扩容规则1.预估扩容后的容量newCap2.newCap个元素需多大内存3.匹配到合适的内存规格练习 string 整数…

Cyclo(Leu-Leu),952-45-4,环(亮氨酸-亮氨酸),进行总结说明

(文章资料汇总来源于:陕西新研博美生物科技有限公司小编MISSwu)​ ●中文名:环(亮氨酸-亮氨酸) ●英文名:Cyclo(-Leu-Leu),Cyclo(L-leucyl-L-leucyl),Cyclo(Leu-Leu) ●…

二叉树OJ实战

目录 二叉树某一节点X祖先节点的交集(证明题) LeetCode_100. 相同的树 LeetCode_965. 单值二叉树 LeetCode_101. 对称二叉树 LeetCode_226. 翻转二叉树 LeetCode_112. 路径总和 LeetCode_113. 路径总和 II LeetCode_110. 平衡二叉树 LeetCode_9…

第一章:光纤通信概述

第一节:通信基本概念 1.1光纤通信基本概念 1.1.1光纤通信的概念 利用光导纤维传输广播信号的通信方式称为光纤通信。光波主要包括紫外线、可见光和红外线。光纤通信工作波长在近红外区,0.8um~1.8um的波长区,频率为167THz~375THz。光纤基础…

Nuxt3引入Element-plus和sass

1.引入Element-plus 打开编辑器终端 运行npm install element-plus/nuxt 或者命令行cd到项目文件 运行npm install element-plus/nuxt package.json文件会出现 使用Element-plus 在nuxt.config.ts文件添加代码 export default defineNuxtConfig({devtools: { enabled: true }…

MFC学习日记(一)——创建新项目

此系列所有文章参考链接:http://www.jizhuomi.com/software/141.html 点击file新建项目创建一个MFC新项目 点击确定 点击下一步 选择应用程序类型 我们看到有四种类型:Single document(单文档)、Multiple documents&#xff…

gigachad1靶机详解

gigachad_vh靶机详解 扫描到ip后对ip做一个全面扫描,发现有一个匿名服务器,是可以免密登陆的。 登陆上后发现就一个文件,get到我们电脑上。 file一下发现是一个zip文件,unzip解压一下,发现给了一个用户名chad&#xf…

【数据挖掘】时间序列教程【二】

2.4 示例:颗粒物浓度 在本章中,我们将使用美国环境保护署的一些空气污染数据作为运行样本。该数据集由 2 年和 5 年空气动力学直径小于或等于 3.2017 \(mu\)g/m\(^2018\) 的颗粒物组成。 我们将特别关注来自两个特定监视器的数据,一个在加利福尼亚州弗雷斯诺,另一个在密…

软考:中级软件设计师:存储管理,分区存储,页式存储,逻辑地址,物理地址

软考:中级软件设计师:存储管理,分区存储 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都是…

LLM - Baichuan7B Tokenizer 生成训练数据

目录 一.引言 二.Tokenizer 原始数据 1.原始数据样例 2.加载并 Token 原始数据 2.1 参数准备 2.2 单条样本处理逻辑 2.3 批量处理逻辑 2.4 主函数与完整代码 三.shell 执行 四.总结 一.引言 前面提到了自己在微调 Baichuan7B Lora 的过程中遇到了一些问题&#xff0c…

leetcode 236. 二叉树的最近公共祖先

2023.7.11 这道题是道面试高频题,并且有点抽象。 首先确定终止条件。如果根节点为空,或者其中一个节点是根节点本身(即 p root 或 q root),那么根节点就是它们的最低共同祖先,因此我们直接返回根节点 roo…

产品经理怎么管理项目进度?

作为在职七年的项目管理人员,在项目进度管理上确实有一点发言权。产品经理作为企业的核心骨干岗位之一,在进行项目进度管理时也会有很多问题出现,那么应该怎样去管理项目进度呢?以下是答主的一些拙见,有需要的朋友们就…

接口测试之postman使用详解

我们平常要做接口测试时,可能需要使用一些工具,其实最简单的的做接口测试的工具就是postman,它可以用来模拟http中的get、post接口等,然后我们去验证接口的返回参数及数据是否符合我们的逻辑。那么怎么使用呢?也就是今…

C++之工厂模式

目录 一、为什么要使用工厂模式 优点 缺点 二、简单工厂(Simple Factory) 好处: 不足: 三、工厂方法: 好处: 不足: 四、抽象工厂(Abstract Factory) 一、为什…

【工具推荐】企业微信、企业飞书接口调用工具

github地址: GitHub - fasnow/idebug: 企业微信、企业飞书接口调用工具。 简介 企业微信、企业飞书接口调用工具。 使用方法 wechat模块 使用use wechat 选择模块。 首先设置corpid和corpsecret,如有需要可以设置代理,之后再执行run命令。 导出通信…

chatgpt 与传统3D建模对比分析

推荐:将NSDT场景编辑器加入你的3D工具链 随着人工智能技术的发展,越来越多的领域正逐渐被AI模型所取代。ChatGPT作为一种自然语言处理技术,越来越为人们所熟悉。最近,一些3D建模领域的专家想知道ChatGPT是否可以取代传统的手动3D建…

在?聊聊浏览器事件循环机制

目录 前言 同步/异步编程模型 同步 异步 JS异步模型 调用栈 任务队列 宏任务队列 微任务队列 微任务API 事件循环 队列优先级 混合队列 事件循环实现 总结 参考文章 Event-Loop可视化工具 前言 JS是单线程语言,在某个时间段只能执行一段代码。这…

IP地址定位技术为何如此准确?揭秘背后原理

据最新数据显示,全球互联网用户数量已突破50亿。为确保用户安全和提供个性化服务,IP地址定位技术愈发重要。但你是否好奇,为何IP地址定位如此准确?今天我们将揭秘其背后原理。 IP地址定位技术利用了多种方法来确定用户的地理位置。…