[学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics

本节首先介绍神经网络的一些基本构成部分。然后简要介绍神经网络的训练方式。介绍一种基于神经网络的形成词汇的向量表示的方法。接下来继续介绍常见的神经网络结构:RNN和CNN。最后使用PyTorch演示一个NLP任务的一个完整训练的Pipeline。

神经网络的基本组成

单个神经元

(人工)神经元接受n个输入,1个输出。由参数w、b以及激活函数f来构成。
在这里插入图片描述

单层神经网络

多个单个神经元组成单层神经网络。
在这里插入图片描述

矩阵表示

在这里插入图片描述

多层神经网络

多个单层神经网络叠加在一起可以形成多层神经网络。
从前往后依次进行神经元的计算称为前向计算(传播)。
在这里插入图片描述

前向计算

前向计算过程中,中间神经元的输出结果被称为隐层输出,用符号h表示。
在这里插入图片描述

为什么要用非线性激活函数f?

如果没有非线性激活函数,那么多层神经网络本质上等价为单层神经网络。所以非线性激活函数对保持神经网络的层数,提高神经网络的表达能力是必要的。
在这里插入图片描述

常见的激活函数

sigmoid:将实数转化为(0,1)上的数
Tanh:将实数转化为(-1,1)上的数
ReLU:将负数全部转为0,正数保留
在这里插入图片描述

网络的输出层

输出层有多种形态,取决于模型的要求。以线性输出和sigmoid输出层为例。
线性输出层一般用于回归问题。
sigmoid输出层可以用于解决二分类问题:将隐层结果压到(0,1),然后这个值用于概率。
softmax输出层可以解决多分类问题:首先将隐层结果转化为我们分类的维度长的向量,然后经过softmax函数转化为概率向量。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

如何训练一个神经网路

训练目标

回归问题,可以用最小化均方差作为训练目标。
在这里插入图片描述
分类问题,可以用最小化交叉熵作为训练目标。
在这里插入图片描述

随机梯度下降

沿着负梯度方向可以使函数值下降。
在这里插入图片描述

梯度

在这里插入图片描述

链式法则

在这里插入图片描述

反向传播

在实际深度学习场景中,对每个参数梯度的计算是通过反向传播算法实现的。
下面先介绍计算图的概念。

计算图

在这里插入图片描述

反向传播

在这里插入图片描述

反向传播(单个节点)

链式法则可以将上游梯度和下游梯度通过本地梯度链接起来。
在这里插入图片描述

词向量表示:Word2Vec

Word2Vec实际上有两类模型,一类是Continuous bag-of-words(CBOW),一类叫Continuous skip-gram。
在这里插入图片描述

滑动窗口

Word2Vec使用滑动窗口来构造训练数据。滑动窗口是指一段文本中连续出现的几个单词。窗口中间的词称为target,其他被称为context。
CBOW是根据context词来预测target词的模型。
skip-gram则相反,是根据target词来预测context词的模型。
在这里插入图片描述
例子
在这里插入图片描述

CBOW模型

bag-of-word假设不考虑context词的顺序对target词的预测的影响。
Never to late to learn这句话为例,应用CBOW模型。假设窗口大小为3,就是要用never,late来预测too。
下面是CBOW的网络结构。
在这里插入图片描述

Skip-Gram模型

下面是Skip-Gram的模型结构。
在这里插入图片描述

Full Softmax的问题

上面两个模型,最后都将转化为分类问题,最后经过映射到词表大小的频率向量中,最后再使用cross entropy loss来进行训练。
但是当词表非常大的时候,进行softmax后,进行反向传播的计算量非常大。所以需要想办法提高计算的效率。
下面介绍两种提高计算效率的方法:

负采样(Negative sampling)

想法是不对所有负例更新权重,而是采样其中一部分进行权重更新。采样的依据是词的频率,词频越高越容易被采样。
在这里插入图片描述
在这里插入图片描述
负采样使得最后需要更新的参数量下降很多,使Word2Vec模型计算成为可能。
在这里插入图片描述

分层softmax(Hierarchical softmax)

Word2Vec的其他训练技巧

Sub-Sampling

为了平衡常见词和罕见词出现的频率。一般而言,罕见词出现概率低,但是可能包含丰富语义信息,所以利用下面的公式计算去掉一些词的概率。具体来说,如果一个词出现频次高,那么这个词被去掉的概率就越高。
在这里插入图片描述

非固定大小的滑动窗口

前面讲到的context词处于平等地位。实际上,如果考虑离target词近的词可能比远离target词的context词更与target词相关。所以可以考虑使用不固定大小的滑动窗口。它的大小根据采样得到。这样离target词近的词有更大概率被采样和训练。
在这里插入图片描述

循环神经网络RNNs

下图是RNN的神经网络结构。
在这里插入图片描述

RNN单元

上面的RNN网络结构可以看成是RNN单元的复制。
RNN当前隐藏状态的值是依赖于过去隐藏状态值的。
在这里插入图片描述

RNN语言模型

下面是一个例子。可以发现其中的参数是共享的,这有助于模型可以泛化到不同长度的样本。也有助于减少参数量。
在这里插入图片描述

RNN的应用场景

序列标注(Sequence Labelling):给定一句话,要求给出每个词的词性
序列预测(Sequence Prediction):给定一周七天的温度,预测每天的天气情况
图片描述(Photograph Description):给定图片,创造一句话来描述对应图片
文本分类(Text Classification):给定一句话,区分其情感是正面还是负面的

RNN的优缺点

优点:

  • 可以处理变长数据
  • 模型大小不会随着输入的增大而增大
  • 权重是共享的
  • 后面的计算理论上可以获取到前面的信息

缺点:

  • 顺序计算很慢
  • 实际应用中,后面的计算很难获取到前面的信息

RNN上的梯度问题-梯度消失/爆炸

在这里插入图片描述
为了解决RNN的缺陷,需要更优的RNN单元。因此提出了两个变体,分别是GRU和LSTM。

Gated Recurrent Unit(GRU)

在传统RNN中引入gating机制。分别引入更新门和重置门。这两个门的作用是权衡过去信息和当前信息的影响。
在这里插入图片描述
在这里插入图片描述
下面演示一个GRU的计算。
分别计算重置门的系数,更新门的系数。新的临时隐藏层参数。再加上上一层隐藏层的输出。利用这些就可以计算需要传输到下一层的隐藏变量hi
在这里插入图片描述
当重置门的系数为0时,则上一层隐藏层的输入不参与这一层临时隐藏层的计算。
一个例子是,一个新文章的开头,过去的信息是无用的。
在这里插入图片描述
更新门的系数接近1,则表示当前层的输出近似等于上一层的隐藏层输出。
如果系数接近0,则当前层的输出近似等于当前层临时隐藏变量,相当于丢弃了之前的状态。
在这里插入图片描述

卷积神经网络CNNs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/320392.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

620基于51单片机的密码锁设计[Proteus仿真]

620基于51单片机的密码锁设计[proteus仿真] 密码锁设计这个题目算是课 程设计和毕业设计中常见的题目了,本期是一个基于51单片机的密码锁设计 需要的源文件和程序的小伙伴可以关注公众号【阿目分享嵌入式】,赞赏任意文章 2¥,私信…

Vulnhub-DC1

前言 一个比较简单的实战靶场,官方要求是找到/root下的flag,所以直接提权即可。但对于学习和训练来说还是太简略了,在打靶场的时候还是全面一些较好。 本次靶场实战涉及信息收集、漏洞查找与利用、getshell、数据库渗透、密码破解、linux提…

c语言if条件语句

c语言if条件语句 c语言if条件语句 c语言if条件语句一、if条件格式二、if else条件格式三、if else if else条件格式 c语言支持最基本的三种程序运行结构:顺序结构、选择结构、循环结构 一、if条件格式 语句格式: if(表达式) {if条件执行语句 }#include&l…

乐意购项目前端开发 #1

一、创建vue项目 1. vue create 项目名 2. 运行项目 npm install npm run dev3.使用Git管理项目 创建远程仓库 leyigou 在项目文件终端执行以下代码 git init # git 初始化#这个要使用自己的仓库 git remote add origin gitgitee.com:xie-weijia/leyigou.git # 添加远程仓…

自定义白平衡调节的步骤 白平衡怎么设置好 白平衡和色温的关系 用什么软件调节白平衡

不管是拍摄视频/图片,还是视频/图片后期处理,白平衡调节都是很重要的环节,比如在氛围感很好咖啡厅内拍一张照,但是拍出来的人物脸色蜡黄,就是因为白平衡没设置好,下面就说说自定义白平衡调节的步骤&#xf…

Halcon滤波器 laplace 算子

Halcon滤波器 laplace 算子 使用laplace 算子对图像进行二次求导,会在边缘产生零点,因此该算子常常与zero_crossing算子配合使用。求出这些零点,也就得到了图像的边缘。同时,由于laplace算子对孤立像素的响应要比对边缘或线的响应…

学会编写自定义configure脚本,轻松实现定制化配置

学会编写自定义configure脚本,轻松实现定制化配置 一、configure脚本的作用和重要性二、configure脚本的基本结构和语法三、编写自定义configure脚本的步骤四、示例五、常见的问题总结 一、configure脚本的作用和重要性 configure脚本是用于自动配置软件源代码的脚…

瑞_Java开发手册_(二)异常日志

文章目录 异常日志的意义(一) 错误码(二) 异常处理(三) 日志规约附:错误码列表 🙊前言:本文章为瑞_系列专栏之《Java开发手册》的异常日志篇,本篇章主要介绍异常日志的错误码、异常处理、日志规约。由于博主是从阿里的《Java开发手…

[含完整代码]Linux使用.sh脚本自动部署(启动|停止|状态|日志)项目[超详细]

前言: 个人博客:www.wdcdbd.com 我们在linux部署.jar项目时,都需要通过java -jar的形式来部署,每次都要手动停止,部署,这样用起来会很麻烦。所以,这篇文章就是自己通过.sh脚本一键启动&#xf…

javacv和opencv对图文视频编辑-常见错误汇总

JavaCV 是一个使用 Java 语言实现的 OpenCV 和 FFmpeg 的接口库,它允许 Java 开发人员使用这些强大的多媒体处理库。然而,在使用 JavaCV 进行开发时,可能会遇到一些常见的错误。在本文中,我将介绍一些常见的 JavaCV 错误和解决方法…

Echarts可视化-数据请求-代码实现和思路

需求:为前端可视化图表提供数据支持。 实现: 时间戳获取优化(细化到秒) 根据时间获取数据(SQL编写) 前端需求数据返回(数据VO) 内容 Apache ECharts 营业额统计 用户统计 订单…

Flutter开发进阶之并发操作数据库

Flutter开发进阶之并发操作数据库 尽管 Flutter 本身不包含任何数据库功能,但可以使用各种第三方库和插件来在 Flutter 应用程序中实现数据库功能; 以下将使用sqflite作为例子,sqflite允许在 Flutter 应用程序中执行 SQL 查询,创…

(Java企业 / 公司项目)分布式事务Seata详解(含Seata+Nacos组合使用)(二)

一. Seata Server配置Nacos 什么是配置中心?配置中心可以说是一个"大货仓",内部放置着各种配置文件,你可以通过自己所需进行获取配置加载到对应的客户端.比如Seata Client端(TM,RM),Seata Server(TC),会去读取全局事务开关,事务会话存储模式等信息.Seata的配置中心…

ElasticSearch _update_by_query

根据查询条件进行数据更新 UPDATE job_call SET admin_id 0 WHERE admin_id 283; kibana.png 1.其中红色框的位置为query的内容,对应为SQL语句中的WHERE admin_id 283 2.划红色线的位置为修改内容,对应SQL中的SET admin_id 0。如果是更新多个字段s…

【2023 我的编程之旅】

前言 转眼 2024 年都过去 14 天了。回顾 2023 有太多技术上的思考以及人生的感悟,接下来趁着 CSDN 官方活动,顺便记录下来。 技术的价值 与现在的年轻人一心只想搞钱不同,刚毕业的时候,我的梦想是进入一家有实力的科技企业&…

Codeforces Bye 2023! - D - Mathematical Problem - 题解

目录 Mathematical Problem 题目大意: 思路解析: 代码实现: Mathematical Problem 题目大意: 第 31 中学的数学家们接到了以下任务: 给你一个多数 n ,你需要找出 n 个不同的数,它们都是整…

Linux 内核学习 3 - 虚拟内存和物理内存

虚拟内存其实是 CPU 和操作系统使用的一个障眼法,联手给进程编织了一个假象,让进程误以为自己独占了全部的内存空间: 在 32 位系统中,进程以为自己独占了 3G 的内存空间。 在 64 位系统中,进程以为自己独占了 128T 的…

【MySQL】数据处理之增删改

文章目录 一、增加(插入)INSERT INTO...VALUES(...,...)VALUES的方式添加情况一:为表的所有字段按默认顺序插入数据情况二:为表的指定字段插入数据情况三:同时插入多条记录 将查询结果插入到表中 二、修改(…

开源知识库zyplayer-doc部署指南

1.前置条件 docker已经安装 mysql已经安装且数据库zyplayer-doc存在 服务器ip:192.168.168.99/ 数据库账户:root,密码:123456 2.拉取镜像 docker pull zyplayer/zyplayer-doc:latest 3.启动 docker run -d \--restart unless-stopped \--name zyplayer-doc \-p 8083:8083 …

C语言常用库函数

1.C语言标准库函数 C语言标准库函数由15个头文件组成。 1.数学函数 数学计算是计算机最擅长的运算,计算机大部分运算方法都是基于数学计算执行的。C语言提供了很多用于数学计算的库函数,合理利用这些库函数,将对程序的编写和运行起到事半功…