Transformer模型-Normalization归一化的简明介绍

 背景

一般而言,Normalization归一化是将特征转换为可比较尺度的过程。有许多方法可以对特征进行归一化

例如:最小-最大特征缩放

最小-最大特征缩放将值转换到[0,1]的范围内。这也被称为基于单位的归一化。可以使用以下方程进行计算:

该方程的顶部将每个值减去X_min;当X等于X_min时,分子变为0。当分子被分母除时,输出为0。

同样,当分子为X_max — X_min时,新的最大值出现。当这个值被X_max — X_min除时,它变为1。这就是范围如何被调整到0和1之间的。

例如:标准分数

在标准化过程中,每个值都被转换为它的标准分数。标准分数也被称为z分数。这是通过从每个值中减去均值,然后除以标准差来实现的。

μ 代表数据的均值或平均数。

σ 代表数据的标准差,即各数值与均值之间的平均离散程度。如果一个数据集的标准差较低,那么数值可能更接近均值。如果标准差较高,则可能意味着数值分布在一个较大的范围内。可以用以下公式来计算标准差。

为什么要进行归一化normalization?

在机器学习中,对特征进行归一化是因为具有不同尺度的特征的模型需要更长的训练时间;这是因为梯度下降需要更多时间来收敛。

根据Pinecone的说法,不进行归一化可能导致大的误差梯度最终爆炸,从而使模型不稳定。

因此,在许多情况下,在将数据插入模型之前应该进行归一化。

为什么要进行 层的归一化 layer normalization?

根据Pinecone的说法,层归一化确保“对于给定的输入,特定层中的所有神经元在所有特征上都具有相同的分布。”

归一化是在最后的D个维度上进行的;D是将要进行归一化的维度数。例如,如果目标是归一化一个具有10个元素的一维向量,那么D就是1。如果目标是归一化一个形状为(2,3)的矩阵,那么D就是2。同样地,如果目标是归一化一个形状为(2,5,3)的张量,那么D就是3。

训练最先进的深度神经网络在计算上非常昂贵。减少训练时间的一种方法是对神经元的活动进行归一化。最近引入的一种技术,称为批量归一化batch normalization ,它使用神经元在小型训练案例批次上的输入总和的分布来计算均值和方差,然后使用这些均值和方差来归一化每个训练案例上该神经元的输入总和。这显著减少了前馈神经网络中的训练时间。然而,批量归一化的效果取决于小型批次的大小,并且如何将其应用于循环神经网络并不明显。在本文中,我们通过从单个训练案例的某一层中所有神经元的输入总和来计算用于归一化的均值和方差,从而将批量归一化转换为层归一化。与批量归一化一样,我们还为每个神经元提供了自己的自适应偏置和增益,这些偏置和增益在归一化之后但在非线性之前应用。与批量归一化不同,层归一化layer normalization在训练和测试时执行完全相同的计算。通过在每个时间步上单独计算归一化统计量,也可以轻松地将层归一化应用于循环神经网络。层归一化在稳定循环网络中的隐藏状态动力学方面非常有效。从经验上看,我们表明与先前发表的技术相比,层归一化可以大大减少训练时间。

https://arxiv.org/abs/1607.06450

层的归一化方程layer normalization Equation

对于每个输入x,层的归一化可以使用经过修改的z分数方程来计算:

μ 代表最后D个维度的均值
σ² 代表最后D个维度的方差
ε 是一个极小的值,当σ²较小时有助于计算
γ 和 β 是可学习的参数。

根据Pinecone的说法,使用γ和β是因为“将所有预激活值强制设为零和单位标准差……可能过于严格。某些情况下,波动的分布可能是网络更好地学习某些类别的必要条件。”

它们与要归一化的给定张量具有相同的形状。
γ 初始化为全1,β 初始化为全0。

LayerNorm — PyTorch 2.2 documentationicon-default.png?t=N7T8https://pytorch.org/docs/stable/generated/torch.nn.LayerNorm.html

Transformers中的层归一化

transformer模型中使用了层的归一化。
 

 原文链接:

https://medium.com/@hunter-j-phillips/layer-normalization-e9ae93eb3c9c

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/519355.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Qt+OpenGL-part5

2-1QT UI调用OpenGL控件功能_哔哩哔哩_bilibili 注意析构问题。 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow>namespace Ui { class MainWindow; }class MainWindow : public QMainWindow {Q_OBJECTpublic:explicit MainWindow(QWidget *parent …

simulink,stm32f103,新建工程实现led闪烁

1. 打开stm32cubeMX&#xff0c;选择单片机型号 2. SYS&#xff0c;选Seral Wire&#xff0c;TIM5 3. GPIO&#xff0c;配置LED驱动管脚为OutPut 3.时钟树选择内部RC&#xff0c;笔者这么做的原因是&#xff0c;在选择外部时钟作为时钟源时候&#xff0c;发现程序总会卡死在Sy…

SQL注入---文件上传+Webshell

文章目录 前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据总结 一.Web工作原理 Web工作原理详解 HTTP/HTTPS协议会作为浏览器中输入信息的载体&#xff0c;向目标服务器发送请求&#xff0c;目标服务器收到请求后再返回对饮的信息&#xff0c;其中浏览器中…

LangChain-08 Query SQL DB 通过GPT自动查询SQL

我们需要下载一个 LangChain 官方提供的本地小数据库。 安装依赖 SQL: https://raw.githubusercontent.com/lerocha/chinook-database/master/ChinookDatabase/DataSources/Chinook_Sqlite.sql Shell: pip install --upgrade --quiet langchain-core langchain-community la…

MySQL学习记录1(学习笔记)

MySQL学习 一、记录知识点 一、记录知识点 1.默认使用的引擎就是InnoDB。不过&#xff0c;也可以通过指定存储引擎的类型来选择别的引擎&#xff0c;比如在create table语句中使用enginememory, 来指定使用内存引擎创建表。 2.不同的存储引擎共用一个Server层&#xff0c;也就…

第20次修改了可删除可持久保存的前端html备忘录:重新布局

第20次修改了可删除可持久保存的前端html备忘录&#xff1a;重新布局 <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"…

苍穹外卖——项目搭建

一、项目介绍以及环境搭建 1.苍穹外卖项目介绍 1.1项目介绍 本项目&#xff08;苍穹外卖&#xff09;是专门为餐饮企业&#xff08;餐厅、饭店&#xff09;定制的一款软件产品&#xff0c;包括 系统管理后台 和 小程序端应用 两部分。其中系统管理后台主要提供给餐饮企业内部员…

4 万字全面掌握数据库、数据仓库、数据集市、数据湖、数据中台

如今&#xff0c;随着诸如互联网以及物联网等技术的不断发展&#xff0c;越来越多的数据被生产出来-据统计&#xff0c;每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。 随着大数据技术的不断更新和迭代&#xff0c;数据管…

【瑞萨RA6M3】1. 基于 vscode 搭建开发环境

基于 vscode 搭建开发环境 1. 准备2. 安装2.1. 安装瑞萨软件包2.2. 安装编译器2.3. 安装 cmake2.4. 安装 openocd2.5. 安装 ninja2.6. 安装 make 3. 生成初始代码4. 修改 cmake 脚本5. 调试准备6. 仿真 1. 准备 需要瑞萨仓库中的两个软件&#xff1a; MDK_Device_Packs.zipse…

Dockerd的使用

端口映射 存储卷 类似于mount&#xff0c;把真机的某个目录映射都容器里面 -v 选项可以有多个 利用存储卷修改配置文件 容器间网络模式 共享网络为 --networkcontainer&#xff1a;容器名 微服务架构 一种由容器为载体&#xff0c;使用多个小型服务组合来构建复杂的架构为…

Jupyter Notebook安装使用(一)

1. 简介 Jupyter Notebook 是一个非常强大的工具&#xff0c;它允许用户创建和共享包含实时代码、方程式、可视化和叙事文本的文档。这种工具特别适合数据清理和转换、数值模拟、统计建模、数据可视化、机器学习等多种应用领域。 2. 安装Jupyter Notebook 2.1. 使用 Anaconda…

【学习总结】Linux tmux 使用

1. 使用背景 本地连接服务器 AutoDL 训练模型时&#xff0c;使用 ssh 连接时&#xff1a; ssh -p xxxxx rootconnect.westc.gpuhub.com输入密码登录成功后 为了训练过程中本地和服务器始终连接&#xff0c;可以使用 tmux 终端复用工具开启后台训练 2. 安装 ~# sudo apt-ge…

苹果cmsV10 MXProV4.5自适应PC手机影视站主题模板苹果cms模板mxone pro

演示站&#xff1a;http://a.88531.cn:8016 MXPro 模板主题(又名&#xff1a;mxonepro)是一款基于苹果 cms程序的一款全新的简洁好看 UI 的影视站模板类似于西瓜视频&#xff0c;不过同对比 MxoneV10 魔改模板来说功能没有那么多,也没有那么大气&#xff0c;但是比较且可视化功…

JVM专题——内存结构

本文部分内容节选自Java Guide和《深入理解Java虚拟机》, Java Guide地址: https://javaguide.cn/java/jvm/memory-area.html &#x1f680; 基础&#xff08;上&#xff09; → &#x1f680; 基础&#xff08;中&#xff09; → &#x1f680;基础&#xff08;下&#xff09;…

Day82:服务攻防-开发组件安全Solr搜索Shiro身份Log4j日志本地CVE环境复现

目录 J2EE-组件Solr-本地demo&CVE 命令执行&#xff08;CVE-2019-17558&#xff09; 远程命令执行漏洞(CVE-2019-0193) Apache Solr 文件读取&SSRF (CVE-2021-27905) J2EE-组件Shiro-本地demo&CVE CVE_2016_4437 Shiro-550Shiro-721(RCE) CVE-2020-11989(身…

《Java面试自救指南》(专题二)计算机网络

文章目录 力推的计网神课get请求和post请求的区别在浏览器网址输入一个url后直到浏览器显示页面的过程常用状态码session 和 cookie的区别TCP的三次握手和四次挥手七层OSI模型&#xff08;TCP/IP协议模型&#xff09;各种io模型的知识http协议和tcp协议的区别https和http的区别…

软件杯 深度学习乳腺癌分类

文章目录 1 前言2 前言3 数据集3.1 良性样本3.2 病变样本 4 开发环境5 代码实现5.1 实现流程5.2 部分代码实现5.2.1 导入库5.2.2 图像加载5.2.3 标记5.2.4 分组5.2.5 构建模型训练 6 分析指标6.1 精度&#xff0c;召回率和F1度量6.2 混淆矩阵 7 结果和结论8 最后 1 前言 &…

【正点原子探索者STM32F4】TFTLCD实验学习记录:FSMC控制 TFTLCD的寄存器配置

FSMC控制 TFTLCD的寄存器配置 异步模式 A控制 TFTLCDFSMC寄存器配置ILI9341电平持续时间要求 参考 异步模式 A控制 TFTLCD LCD以ILI9341为例 FSMC寄存器配置 对于异步突发访问方式&#xff0c; FSMC 主要设置 3 个时间参数&#xff1a;地址建立时间(ADDSET)、 数据 建立时间…

docker的安装及入门指令

目录 一、将docker安装到云服务器步骤 1.更新系统yum版本 2.安装所需依赖 3.添加docker仓库设置(使用的是阿里云) 4.安装docker引擎 5.启动docker并开启自动启动 6. 检查是否安装成功&#xff0c;成功会显示相应版本&#xff0c;否则安装失败 二、docker常用命令 1.从…

使用LIO-SAM进行点云赋色 与 激光雷达和相机的精细化标定(防止自己忘记的博客)----- 激光雷达和相机的精细化标定

目录 1 标定相机 2 激光雷达、相机粗标定 3 精细化标定激光雷达和相机 1 标定相机 使用Kaliber标定D435i相机&#xff0c;本次标定的分辨率为1920*1080&#xff0c;相机的内参如下&#xff1a; FX&#xff1a;1439.96402547 FY&#xff1a;1442.82612329 CX&#xff1a;979.0…