PyTorch LSTM模型深度解析:参数设置全指南

本文主要依据
Pytorch 中LSTM官方文档
,对其中的
模型参数

输入

输出
进行详细解释。

目录

基本原理

模型参数 Parameters

输入Inputs: input, (h_0, c_0)

输出Outputs: output, (h_n, c_n)

变量Variables

备注


基本原理

首先我们看下面这个LSTM图, 对应于输入时间序列中每个步长的LSTM计算。

对应的公式计算公式如下:

其中

表示时刻

时刻的隐含状态,

表示时刻

上的记忆细胞,

表示时刻

的输入(

对应于单个样本

),

表示隐含层在时刻

的隐含状态或者是在起始时间o的初始隐含状态,

,

,

表示对应的输入、遗忘、 输出门。σ 表示的是sigmoid 函数,⊙ 表示哈达玛积(Hadamard product)。

对于含多个隐含层的LSTM,第

层(

)的输入

​ 则对应的是前一层的隐含状态

与丢弃dropout

的乘积,其中每一个

是Bernoulli随机变量(以参数dropout 的概率等于0)。

如果参数指定proj_size > 0,则将对LSTM使用投影。他的运作方式包括以下几步。首先,

的维度将从hidden_size 转换为proj_size (

的维度也会同时被改变)。第二,每一个层的隐含状态输出将与一个(可学习)的投影矩阵相乘:

。注意,这种投影模式同样对LSTM的输出有影响,即变成proj_size.

模型参数 Parameters
  • input_size
    – 输入变量x的特征数量
  • hidden_size
    – 隐含层h的特征数量(即层中隐含单元的个数)
  • num_layers
    – 隐含层的层数,比如说num_layers =2, 意味着这是包含两个LSTM层,默认值:1
  • bias
    – 如果为False, 表示不使用偏置权重 b_ih 和 b_hh。默认值为:True
  • batch_first
    – 如果为True,则输入和输出的tensor维度为从(seq, batch, feature)变成 (batch, seq, feature)。 注意,这个维度变化对隐含和细胞的层并不起做用。参见下面的Inputs/Outputs 部分的说明,默认值:False
  • dropout
    – 如果非0,则会给除最后一个LSTM层以外的其他层引入一个Dropout层,其对应的丢弃概率为dropout,默认值:0
  • bidirectional
    – 如果为True,则是一个双向的(bidirectional )的LSTM,默认值:False
  • proj_size
    – 如果>0, 则会使用相应投影大小的LSTM,默认值:0
输入Inputs: input, (h_0, c_0)
  • input:
    当batch_first = False 时形状为(
    L,N,H
    _in),当 batch_first = True 则为(
    N, L, H
    _in​) ,包含批量样本的时间序列输入。该输入也可是一个可变换长度的时间序序列,参见
    torch.nn.utils.rnn.pack_padded_sequence()
    或者是
    torch.nn.utils.rnn.pack_sequence()
    了解详情。
  • h_0
    :形状为(
    D∗num_layers, N,
    H
    _out),指的是包含每一个批量样本的初始隐含状态。如果模型未提供(
    h_0, c_0
    ) ,默认为是全0矩阵。
  • c_0
    :形状为(
    D∗num_layers, N, H
    _cell), 指的是包含每一个批量样本的初始记忆细胞状态。 如果模型未提供(
    h_0, c_0
    ) ,默认为是全0矩阵。

其中:

N
= 批量大小

L
= 序列长度

D
= 2 如果模型参数bidirectional = 2,否则为1

H
_in = 输入的特征大小(input_size)

H
_cell = 隐含单元数量(hidden_size)

H
_out = proj_size, 如果proj_size > 0, 否则的话 = 隐含单元数量(hidden_size)

输出Outputs: output, (h_n, c_n)
  • output
    : 当batch_first = False 形状为(
    L, N, D∗H
    _out​) ,当batch_first = True 则为 (
    N, L, D∗H
    _out​) ,包含LSTM最后一层每一个时间步长

    的输出特征(

    )。如果输入的是
    torch.nn.utils.rnn.PackedSequence
    ,则输出同样将是一个packed sequence。
  • h_n
    : 形状为(
    D∗num_layers, N, H
    _out​),包括每一个批量样本最后一个时间步的隐含状态。
  • c_n
    : 形状为(
    D∗num_layers, N, H
    _cell​),包括每一个批量样本最后一个时间步的记忆细胞状态。
变量Variables
  • ~LSTM.weight_ih_l[k]
    – 学习得到的第k层的 input-hidden 权重 (W_ii|W_if|W_ig|W_io),当k=0 时形状为 (4*hidden_size, input_size) 。 否则,形状为 (4*hidden_size, num_directions * hidden_size)
  • ~LSTM.weight_hh_l[k]
    –学习得到的第k层的 hidden -hidden 权重(W_hi|W_hf|W_hg|W_ho), 想形状为 (4*hidden_size, hidden_size)。如果 Proj_size > 0,则形状为 (4*hidden_size, proj_size)
  • ~LSTM.bias_ih_l[k]
    – 学习得到的第k层的input-hidden 的偏置 (b_ii|b_if|b_ig|b_io), 形状为 (4*hidden_size)
  • ~LSTM.bias_hh_l[k]
    – 学习得到的第k层的hidden -hidden 的偏置  (b_hi|b_hf|b_hg|b_ho), 形状为 (4*hidden_size)
  • ~LSTM.weight_hr_l[k]
    – 学习得到第k层投影权重,形状为 (proj_size, hidden_size)。仅仅在 proj_size > 0 时该参数有效。
备注
  • 所有的权重和偏置的初始化方法均取值于:

  • 对于双向 LSTMs,前向和后向的方向分别为0 和1。当batch_first = False 时,对两个方向的输出层的提取可以使用方式:output.view(seq_len, batch, num_directions, hidden_size)。
  • 具体怎么使用,可以参考本人博文
    从零开始实现,LSTM模型进行单变量时间序列预测
  • 关于LSTM模型的结构如果还有不清晰的可以参考这篇博客:
    Pytorch实现的LSTM模型结构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/737723.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

应届毕业之本科简历制作

因为毕设以及编制岗位面试,最近好久没有更新了,刚好有同学问如何制作简历,我就准备将我自己制作简历的流程分享给各位,到此也算是一个小的结束,拿了工科学位证书毕业去做🐂🐎了。 简历主要包含内…

# Kafka_深入探秘者(3):kafka 消费者

Kafka_深入探秘者(3):kafka 消费者 一、kafka 消费者、消费组 1、Kafka 消费者是消费组的一部分,当多个消费者形成一个消费组来消费主题时,每个消费者会收到不同分区的消息。假设有一个 T1 主题,该主题有…

Spring+SpringMVC+MyBatis整合

目录 1.SSM介绍1.1 什么是SSM?1.2 SSM框架1.2.1 Spring1.2.2 SpringMVC1.2.3 MyBatis 2.SSM框架整合2.1 建库建表2.2 创建工程2.3 pom.xml2.4 log4j.properties2.5 db.properties2.6 applicationContext-dao.xml2.7.applicationContext-tx.xml2.8 applicationContex…

移远通信SC200L(展锐SL8541E)Linux系统修改分区大小

一、确定大小 由于默认的根文件分区大小仅500M,/lib目录移植个app都放不进去,这谁受得了? userdata分区却有6G,匀一点。 在 prebuilts/pac-binary/sl8541e/ 下有分区信息表 sl8541e-emmc-marlin2.xml: 找到system项&a…

MyBatis-Plus常用注解详解与实战应用

MyBatis-Plus 是一个 MyBatis 的增强工具,在 MyBatis 的基础上只做增强不做改变,为简化开发、提高效率而生。它提供了大量的常用注解,使得开发者能够更方便地进行数据库操作。 MyBatis-Plus 提供的注解可以帮我们解决一些数据库与实体之间相…

高校新生如何选择最优手机流量卡?

一年一度的高考已经结束了,愿广大学子金榜题名,家长们都给孩子准备好了手机,那么手机流量卡应该如何选择呢? 高校新生在选择手机流量卡时,需要综合考量流量套餐、费用、网络覆盖、售后服务等多方面因素,以下…

怎么用Excel生成标签打印模板,自动生成二维码

环境: EXCEL2021 16.0 问题描述: 怎么用excel生成标签打印模板自动生成二维码 解决方案: 在Excel中生成标签打印模板并自动生成二维码,可以通过以下几个步骤完成: 1. 准备数据 首先,确保你的Excel表…

【PyTorch单点知识】神经元网络模型剪枝prune模块介绍(上)

文章目录 0. 前言1. 剪枝prune主要功能分类2. torch.nn.utils.prune中的方法介绍3. PyTorch实例3.1 BasePruningMethod3.2PruningContainer3.3 Identity3.4RandomUnstructured3.5L1Unstructured 4. 总结 0. 前言 按照国际惯例,首先声明:本文只是我自己学…

【AI大模型】驱动的未来:穿戴设备如何革新血液、皮肤检测与营养健康管理

文章目录 1. 引言2. 现状与挑战3. AI大模型与穿戴设备概述4. 数据采集与预处理4.1 数据集成与增强4.2 数据清洗与异常检测 5. 模型架构与训练5.1 高级模型架构5.2 模型训练与调优 6. 个性化营养建议系统6.1 营养建议生成优化6.2 用户反馈与系统优化 7. 关键血液成分与健康状况评…

Win11最适合打游戏的版本推荐:畅玩游戏,告别卡顿!

在Win11电脑操作中,用户不仅可以进行办公、学习等操作,也可以畅玩喜欢的游戏。如果喜欢打游戏的用户,就可以安装上适合打游戏的系统版本。但许多新手用户不知道去哪里找到最适合打游戏的Win11系统版本?以下小编就给大家带来这样的…

el-upload 上传图片及回显照片和预览图片,文件流和http线上链接格式操作

<div v-for"(info, index) in zsjzqwhxqList.helicopterTourInfoList" :key"info.id" >编辑上传图片// oss返回线上地址http链接格式&#xff1a;<el-form-itemlabel"巡视结果照片":label-width"formLabelWidth"><el…

Appium APP测试学习

1、安装client编程库(客户端) (1)如果遇到以下问题可以使用全路径安装 (2)安装后导致selenium升级&#xff0c;导致某些方法失效&#xff1a;如find_element_by_id。解决方法&#xff1a;卸载两个安装包&#xff0c;后面重新安装 2、安装appium Server:&#xff08;服务端&…

【论文阅读】场景生成及编辑3D定位论文阅读

<div id"content_views" class"htmledit_views" style"user-select: auto;"><div class"kdocs-document"> 前置知识 归纳偏置 关于归纳偏置的理解&#xff1a;首先推荐一篇解释归纳偏置非常好的博客&#xff1a;浅谈归纳…

【PostgreSQL】AUTO_EXPLAIN - 慢速查询的日志执行计划

本文为云贝教育 刘峰 原创&#xff0c;请尊重知识产权&#xff0c;转发请注明出处&#xff0c;不接受任何抄袭、演绎和未经注明出处的转载。 一、介绍 在本文中&#xff0c;我们将了解 PostgreSQL AUTO_EXPLAIN功能的工作原理&#xff0c;以及为什么应该使用它来收集在生产系统…

高考十字路口:24年考生如何权衡专业与学校的抉择?

文章目录 每日一句正能量前言专业解析理工科专业商科专业人文社科专业艺术与设计专业个人经验与思考过程结论 名校效应分析名校声誉与品牌效应资源获取学术氛围就业优势个人发展结论 好专业和好学校的权衡个人职业目标行业需求教育质量资源和机会学术氛围就业优势经济和地理位置…

SVM算法-人脸识别背后技术详解

引言 支持向量机&#xff08;SVM&#xff09;是一种强大的监督学习算法&#xff0c;广泛应用于分类和回归任务中。本文将详细介绍SVM算法在人脸识别任务中的应用&#xff0c;并通过代码示例来展示其背后的技术精髓。我们将分三大部分来展开&#xff0c;本部分将重点介绍SVM算法…

SpringBoot2+Vue3开发博客管理系统

项目介绍 博客管理系统&#xff0c;可以帮助使用者管理自己的经验文章、学习心得、知识文章、技术文章&#xff0c;以及对文章进行分类&#xff0c;打标签等功能。便于日后的复习和回忆。 架构介绍 博客管理系统采用前后端分离模式进行开发。前端主要使用技术&#xff1a;Vu…

网管工作实践_02_IP/MAC地址管理工具

1、ipconfig命令格式及参数 ipconfig是内置于Windows的TCP/IP应用程序&#xff0c;用于显示本地计算机网络适配器的MAC地址和IP地址等配置信息&#xff0c;这些信息一般用来榆验手动配置的TCP/IP设置是否正确。当在网络中使用 DHCP服务时&#xff0c;IPConfig可以检测计算机中分…

利用定时器1产生全双工软件串口

代码; /*《AVR专题精选》随书例程3.通信接口使用技巧项目&#xff1a;使用AVR定时器1和外中断实现全双工软件串口文件&#xff1a;softuart.c说明&#xff1a;软件串口驱动文件作者&#xff1a;邵子扬时间&#xff1a;2012年12月16日*/ #include "softuart.h"// 内部…

达梦数据守护集群部署

接上篇 达梦8单机规范化部署 https://blog.csdn.net/qq_25045631/article/details/139898690 1. 集群规划 在正式生产环境中&#xff0c;两台机器建议使用统一配置的服务器。使用千兆或千兆以上网络。 两台虚拟机各加一块网卡&#xff0c;仅主机模式&#xff0c;作为心跳网卡…