基于 RNN 的语言模型

基于 RNN 的语言模型

循环神经网络(Recurrent Neural Network, RNN)是一类网络连接中包含环路的
神经网络的总称。
给定一个序列,RNN 的环路用于将历史状态叠加到当前状态上。沿着时间维度,历史状态被循环累积,并作为预测未来状态的依据。RNN 可以基于历史规律,对未来进行预测。
基于 RNN 的语言模型,以词序列作为输入,基于被循环编码的上文和当前词来预测下一个词出现的概率。

循环神经网络 RNN

按照推理过程中信号流转的方向,神经网络的正向传播范式可分为两大类:前馈传播范式和循环传播范式。
采用前馈传播范式的神经网络可以统称为前馈神经网络(Feed-forward Neural Network,FNN),
而采用循环传播范式的神经网络被统称为循环神经网络(Recurrent Neural Network, RNN)
在这里插入图片描述

前馈神经网络(FNN)

  • 计算是逐层向前的,没有反馈连接。
  • 输出仅依赖于当前输入,不考虑历史信息
计算公式
  1. 输入层

    • 假设输入向量为 x = [ x 1 , x 2 , . . . , x n ] \mathbf{x} = [x_1, x_2, ..., x_n] x=[x1,x2,...,xn]
  2. 隐藏层(如果有多个隐藏层,这个过程会重复):

    • 每个神经元的加权输入计算为 z = w 1 x 1 + w 2 x 2 + . . . + w n x n + b z = w_1x_1 + w_2x_2 + ... + w_nx_n + b z=w1x1+w2x2+...+wnxn+b,其中 w i w_i wi是权重, b b b是偏置项。
    • 激活函数 g ( z ) g(z) g(z)被应用于加权输入,以产生神经元的输出。常见的激活函数包括 Sigmoid、Tanh、ReLU 等。
    • 因此,隐藏层的输出 h h h可以表示为 h = g ( z ) = g ( w 1 x 1 + w 2 x 2 + . . . + w n x n + b ) h = g(z) = g(w_1x_1 + w_2x_2 + ... + w_nx_n + b) h=g(z)=g(w1x1+w2x2+...+wnxn+b)
  3. 输出层

    • 输出层的计算与隐藏层类似,但是输出层的输出通常不经过非线性激活函数(如果是分类问题,最后一层可能使用 Softmax 函数)。
    • 输出 o \mathbf{o} o可以表示为 o = f ( V h + b ) \mathbf{o} = f(Vh + b) o=f(Vh+b),其中 V V V是从隐藏层到输出层的权重矩阵, h h h是隐藏层的输出向量, b b b是输出层的偏置项, f f f是输出层的激活函数(对于回归问题, f f f可以是恒等函数)。

以一个具体的数学表达式来表示一个简单的FNN模型的前向传播过程:

假设有一个输入向量 x \mathbf{x} x,一个隐藏层,其权重矩阵为 W \mathbf{W} W,偏置向量为 b \mathbf{b} b,激活函数为 g g g,以及一个输出层,其权重矩阵为 V \mathbf{V} V,偏置向量为 b ′ \mathbf{b}' b,输出层激活函数为 f f f

  1. 计算隐藏层的加权输入和输出:
    z = W x + b \mathbf{z} = \mathbf{W}\mathbf{x} + \mathbf{b} z=Wx+b
    h = g ( z ) \mathbf{h} = g(\mathbf{z}) h=g(z)
  2. 计算输出层的加权输入和输出:
    o = V h + b ′ \mathbf{o} = \mathbf{V}\mathbf{h} + \mathbf{b}' o=Vh+b
    y = f ( o ) \mathbf{y} = f(\mathbf{o}) y=f(o)
    其中, y \mathbf{y} y是网络的最终输出。这个过程是逐层向前的,每一层的输出仅依赖于当前层的输入和权重,而不依赖于网络中其他层的历史信息。

循环神经网络(RNN)

RNN 的工作方式:

  • 输入序列被逐个元素地串行输入。具有循环连接,可以将之前的状态信息传递到后续的计算中。
  • 每个时间步的隐状态是前一个隐状态和当前输入的函数。输出不仅依赖于当前输入,还依赖于之前的所有输入,因为它们被编码在隐状态中。
  • 输出是当前隐状态的函数。
基本计算公式:
  1. 隐藏状态更新公式
    h t = f ( W h h h t − 1 + W x h x t + b h ) h_t = f(W_{hh}h_{t-1} + W_{xh}x_t + b_h) ht=f(Whhht1+Wxhxt+bh)

    • h t h_t ht是时间步 t t t的隐藏状态。
    • h t − 1 h_{t-1} ht1是时间步 t − 1 t-1 t1的隐藏状态。
    • x t x_t xt是时间步 t t t的输入。
    • W h h W_{hh} Whh是隐藏状态到隐藏状态的权重矩阵。
    • W x h W_{xh} Wxh是输入到隐藏状态的权重矩阵。
    • b h b_h bh是隐藏状态的偏置项。
    • f f f是激活函数,常用的激活函数包括tanh、ReLU等。
  2. 输出计算公式
    y t = g ( W h y h t + b y ) y_t = g(W_{hy}h_t + b_y) yt=g(Whyht+by)

    • y t y_t yt是时间步 t t t的输出。
    • W h y W_{hy} Why是隐藏状态到输出的权重矩阵。
    • b y b_y by是输出的偏置项。
    • g g g是输出层的激活函数,对于分类问题可能是softmax函数,对于回归问题可能是线性函数。

梯度衰减

问题描述
在RNN中,梯度需要通过时间反向传播,每一步的梯度计算都会涉及到前一步的权重。如果权重的导数(梯度)是小于1的正数,那么随着时间步的增加,梯度会指数级减少。这意味着对于较早时间步的输入,网络很难学习到它们对最终输出的影响。

解决方案

  1. 使用ReLU激活函数:相比于tanh或sigmoid,ReLU激活函数可以减轻梯度衰减问题,因为它的导数在正区间内是常数。
  2. 权重初始化:使用如Glorot初始化(Xavier初始化)或He初始化等方法,可以更好地控制梯度的大小。
  3. 梯度裁剪(Gradient Clipping):通过限制梯度的大小来防止梯度爆炸,间接缓解梯度衰减。
  4. 使用LSTM或GRU:这两种RNN的变体通过引入门控机制来减少梯度衰减的影响。

梯度爆炸

问题描述
与梯度衰减相反,梯度爆炸是指在反向传播过程中,梯度值随着时间步的增加而变得非常大,导致权重更新过大,从而使学习过程变得不稳定。

解决方案

  1. 梯度裁剪:在每次更新前,将梯度限制在一个合理的范围内,以防止梯度爆炸。
  2. 使用LSTM或GRU:这两种结构通过门控机制来控制信息流,从而减少梯度爆炸的风险。
  3. 正则化:如L1、L2正则化,可以限制权重的大小,间接控制梯度的大小。
  4. 使用批量归一化(Batch Normalization):在RNN中应用批量归一化可以帮助稳定梯度。
其他注意事项
  • 截断反向传播(Truncated Backpropagation Through Time, TBPTT):这种方法不是在整个序列上进行反向传播,而是在序列的一个小片段上进行,可以减少计算量并减轻梯度问题。
  • 调整学习率:使用自适应学习率算法,如Adam,可以帮助更好地控制学习过程。

基于循环神经网络(RNN)的语言模型

基于循环神经网络(RNN)的语言模型是一种序列生成模型,它能够根据当前词和之前的隐藏状态来预测下一个词的概率。

  1. 条件概率

    • 给定词序列 { w 1 , w 2 , … , w N } \{w_1, w_2, \ldots, w_N\} {w1,w2,,wN},RNN语言模型预测下一个词 w i + 1 w_{i+1} wi+1 出现的条件概率是 P ( w i + 1 ∣ w 1 : i ) = P ( w i + 1 ∣ w i , h i − 1 ) P(w_{i+1} | w_1:i) = P(w_{i+1} | w_i, h_{i-1}) P(wi+1w1:i)=P(wi+1wi,hi1)
  2. 序列的整体概率

    • 整个词序列 { w 1 , w 2 , … , w N } \{w_1, w_2, \ldots, w_N\} {w1,w2,,wN} 出现的概率可以表示为:
      P ( w 1 : N ) = ∏ i = 1 N − 1 P ( w i + 1 ∣ w i , h i − 1 ) P(w_1:N) = \prod_{i=1}^{N-1} P(w_{i+1} | w_i, h_{i-1}) P(w1:N)=i=1N1P(wi+1wi,hi1)
  3. 输出向量

    • RNN的输出是一个向量,其中每一维代表词典中对应词的概率。如果词典 D D D 中有 ∣ D ∣ |D| D 个词,那么输出向量 o i o_i oi 可以表示为:
      o i = { o i [ w ^ d ] } d = 1 ∣ D ∣ o_i = \{ o_i[\hat{w}^d] \}_{d=1}^{|D|} oi={oi[w^d]}d=1D
    • 其中, o i [ w ^ d ] o_i[\hat{w}^d] oi[w^d] 表示词典中的词 w ^ d \hat{w}^d w^d 出现的概率。
  4. 序列的整体概率计算

    • 利用输出向量,整个序列的概率可以表示为:
      P ( w 1 : N ) = ∏ i = 1 N o i [ w i + 1 ] P(w_1:N) = \prod_{i=1}^{N} o_i[w_{i+1}] P(w1:N)=i=1Noi[wi+1]
    • 这里 o i [ w i + 1 ] o_i[w_{i+1}] oi[wi+1] 是在第 i i i 步输出中,词 w i + 1 w_{i+1} wi+1 的概率。

损失函数和训练

  1. 交叉熵损失

    • 使用交叉熵损失函数来衡量模型预测的概率分布与真实词的概率分布之间的差异:
      l C E ( o i ) = − ∑ d = 1 ∣ D ∣ I ( w ^ d = w i + 1 ) log ⁡ o i [ w ^ d ] l_{CE}(o_i) = -\sum_{d=1}^{|D|} I(\hat{w}_d = w_{i+1}) \log o_i[\hat{w}_d] lCE(oi)=d=1DI(w^d=wi+1)logoi[w^d]
    • 其中 I ( ⋅ ) I(\cdot) I() 是指示函数,当 w ^ d = w i + 1 \hat{w}_d = w_{i+1} w^d=wi+1 时为1,否则为0。
  2. 总损失

    • 训练集 S S S 的总损失是所有样本损失的平均值:
      L ( S , W I , W H , W O ) = 1 ∣ S ∣ ∑ s = 1 ∣ S ∣ ∑ i = 1 N l C E ( o i , s ) L(S, W_I, W_H, W_O) = \frac{1}{|S|} \sum_{s=1}^{|S|} \sum_{i=1}^{N} l_{CE}(o_{i,s}) L(S,WI,WH,WO)=S1s=1Si=1NlCE(oi,s)
    • 这里 o i , s o_{i,s} oi,s 是第 s s s 个样本在第 i i i 步的输出。

文本生成和训练策略

  1. 自回归(Autoregressive)

    • 在文本生成中,模型通过迭代预测下一个词来生成文本。
      (1) 错误级联放大
      选用模型自己生成的词作为输入可能会有错误,这样的错误循环输入,将会不断的放大错误,导致模型不能很好拟合训练集;
      (2) 串行计算效率低
      因为下一个要预测的词依赖上一次的预测,每次预测之间是串行的,难以进行并行加速。
  2. Teacher Forcing

    • 在训练过程中,使用真实的下一个词作为输入,而不是模型预测的词,以提高训练效率和效果。
    • 在 TeacherForcing 中,每轮都仅将输出结果与“标准答案”(Ground Truth)进行拼接作为下一轮的输入。
  3. 曝光偏差(Exposure Bias)

    • 由于训练和推理过程中的差异导致的偏差。
    • Teacher Forcing 的训练方式将导致曝光偏差(Exposure Bias)的问题。
    • 曝光偏差是指 Teacher Forcing 训练模型的过程和模型在推理过程存在差异
    • TeacherForcing 在训练中,模型将依赖于“标准答案”进行下一次的预测,但是在推理预测中,模型“自回归”的产生文本,没有“标准答案”可参考。
      Scheduled Sampling
      一种减少曝光偏差的方法,通过在训练过程中逐渐引入模型自己生成的词。
      循序渐进的使用一小部分模型自己生成的词代替“标准答案”,在训练过程中对推理中无“标准答案”的情况进行预演。

RNN语言模型通过这些机制来学习序列数据的模式,并能够用于文本生成等任务。然而,由于RNN的循环迭代本质,它在处理长序列时训练较慢,且不易进行并行计算。因此,后续的研究中出现了基于Transformer的模型,它能够更有效地处理这些问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/912216.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

html的week控件 获取周(星期)的第一天(周一)和最后一天(周日)

html的week控件 获取周(星期)的第一天(周一)和最后一天(周日) <input type"week" id"week" class"my-css" value"ViewBag.DefaultWeek" /><script> function PageList() { var dateStrin…

C/C++--11--Vxworks6.8 + workbench3.2-一文看懂安装及工程导入说明

1、安装包截图如下&#xff1a; 2、安装流程如下&#xff1a; 安装系统&#xff1a;Win10-64位&#xff08;会出现以下报错-待解决&#xff09; 安装系统&#xff1a;Win7-64位&#xff0c;安装成功&#xff0c;路径如下&#xff1a; http://www.windriver.com/ 1、安装完成后…

MLMs之OmniGen:OmniGen(统一图像生成模型)的简介、安装和使用方法、案例应用之详细攻略

MLMs之OmniGen&#xff1a;OmniGen(统一图像生成模型)的简介、安装和使用方法、案例应用之详细攻略 导读&#xff1a;这篇论文介绍了OmniGen&#xff0c;一个用于统一图像生成的扩散模型。论文的核心要点可以总结如下&#xff1a; >> 背景痛点&#xff1a; ● 图像生成领…

QT中 update()函数无法实时调用 paintEvent

QT中 update()函数无法实时调用 paintEvent&#xff01; 在QT中&#xff0c;update()函数用于标记一个窗口区域为“需要重绘”。当调用update()后&#xff0c;QT会在合适的时候调用paintEvent()来重绘这个区域。然而&#xff0c;update()不会立即调用paintEvent()&#xff0c;…

OpenCV视觉分析之目标跟踪(12)找到局部的最大值函数meanShift()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 在反向投影图像上找到一个对象。 meanShift 是一种用于图像处理和计算机视觉领域的算法&#xff0c;特别适用于目标跟踪、图像分割等任务。该算…

无人车之路径规划篇

无人车的路径规划是指在一定的环境模型基础上&#xff0c;给定无人车起始点和目标点后&#xff0c;按照性能指标规划出一条无碰撞、能安全到达目标点的有效路径。 一、路径规划的重要性 路径规划对于无人车的安全、高效运行至关重要。它不仅能够提高交通效率&#xff0c;减少交…

杂谈:业务说的场景金融是什么?

引言&#xff1a;市场格局的转变 在供应短缺的年代&#xff0c;是典型的卖方市场。为了保证稳定供货&#xff0c;买方会提前一段时间下单&#xff0c;也几乎没什么议价能力。卖方只需等着接单就行。 现在很多领域的供应商数量越来越多&#xff0c;而且随着互联网的普及&#…

Chrome扩展是程序员做独立开发的绝佳入场机会

一、开发成本低&#xff0c;难度低 简便灵活&#xff1a;相比开发移动应用&#xff0c;浏览器扩展的开发过程更加简便灵活&#xff0c;更适合初学者。省时省力&#xff1a;通过扩展&#xff0c;你可以修改现有网站的功能&#xff0c;无需从零开始搭建应用&#xff0c;大大节省…

Aop+自定义注解实现数据字典映射

数据字典 Web项目开发中&#xff0c;字典表的一般都会存在&#xff0c;主要用来给整个系统提供基础服务。 比如男女性别的类型可以使用0和1来进行表示&#xff0c;在存储数据和查询数据的时候&#xff0c;就可以使用字典表中的数据进行翻译处理。 再比如之前做的一个项目中宠物…

【C#】选课程序增加、删除统计学时

文章目录 【例6-2】编写选课程序。利用利用列表框和组合框增加和删除相关课程&#xff0c;并统计学时数1. 表6-2 属性设置2. 设计窗体及页面3. 代码实现4. 运行效果 【例6-2】编写选课程序。利用利用列表框和组合框增加和删除相关课程&#xff0c;并统计学时数 分析&#xff1…

星期-时间范围选择器 滑动选择时间 最小粒度 vue3

星期-时间范围选择器 功能介绍属性说明事件说明实现代码使用范例根据业务需要,实现了一个可选择时间范围的周视图。用户可以通过鼠标拖动来选择时间段,并且可以通过快速选择组件来快速选择特定的时间范围。 功能介绍 时间范围选择:用户可以通过鼠标拖动来选择时间段。快速选…

Swift从0开始学习 简单值 day1

1.0简单值的初始化: Swift声明值可以使用let 来声明常量&#xff0c;使用 var 来声明变量。let声明是不可修改的且只能赋值一次&#xff0c;var声明是可修改的。两者都不需要显式的指定类型&#xff0c;当你通过一个值来声明变量和常量时&#xff0c;编译器会自动推断其类型。 …

技术领导者的道与术:从领导者到领导力

目录标题 领导者现实看起来是这样技术领导者不应该和个人坐在一起技术领导力仍然是必须的从技术领导到技术领导力小结领导者 你可能想成为或者已经是一位技术领导者,估计你现在心里想成为超级英雄的想法正在爆棚。 你是Java、JavaScript、Angular等技术的专家,公司的项目代…

FPGA视频GTH 8b/10b编解码转PCIE3.0传输,基于XDMA中断架构,提供工程源码和技术支持

目录 1、前言工程概述免责声明 2、相关方案推荐我已有的PCIE方案我已有的 GT 高速接口解决方案 3、PCIE基础知识扫描4、工程详细设计方案工程设计原理框图输入Sensor之-->芯片解码的HDMI视频数据组包基于GTH高速接口的视频传输架构GTH IP 简介GTH 基本结构GTH 发送和接收处理…

【实战篇P2-5】手把手实现STM32+ESP8266+原子云服务器+手机APP应用——第五节-编写Android手机APP程序实现接入原子云服务器

使用的开发软件是Android studio Android SDK(运行环境 :最低版本 21(Android 5.0) 最高版本 29 (Android 9.0) Gradle 版本 :4.6 根据源码,可自定义修改界面,修改名称,根据需求自定义数据展示界面等,修改app图标及名称等。 目录 Android程序设计 Android…

华为私有接口类型hybrid

华为私有接口类型hybrid Tip&#xff1a;hybrid类型&#xff0c;简称混合型接口。 本次实验模拟2层网络下 vlan10 vlan20 不能互访&#xff0c;vlan10 vlan20 同时可以访问vlan100 sw1配置如下&#xff1a; <Huawei>sy [Huawei]sys sw1 [sw1]vl ba 10 20 100 [sw1]int…

在 .NET 6.0 中创建用于 CRUD 操作的 Web API

快速概述&#xff1a; 在动态的技术世界中&#xff0c;创建强大的 Web API 已成为开发人员不可或缺的关键技能。这些 API 是促进不同应用程序之间顺畅通信的重要链接&#xff0c;可实现无缝数据检索和操作。本文的重点是在 .NET 6 中为 CRUD 操作创建 Web API。 为了实现这一点…

YOLOPv2论文翻译

YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception 摘要 在过去的十年中&#xff0c;多任务学习方法在解决全景驾驶感知问题方面取得了令人鼓舞的成果&#xff0c;既提供了高精度又具备高效能的性能。在设计用于实时实际自动驾驶系统的网络时&#xff0c;这…

使用GitHub Actions实现CI/CD流程

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 使用GitHub Actions实现CI/CD流程 GitHub Actions 简介 创建仓库 配置工作流 示例工作流文件 触发和运行工作流 部署应用 最佳实…

【C++练习】使用海伦公式计算三角形面积

编写并调试一个计算三角形面积的程序 要求&#xff1a; 使用海伦公式&#xff08;Herons Formula&#xff09;来计算三角形的面积。程序需要从用户那里输入三角形的三边长&#xff08;实数类型&#xff09;。输出计算得到的三角形面积&#xff0c;结果保留默认精度。提示用户…