深度学习 | 基本循环神经网络


1、序列建模

1.1、序列数据

        序列数据 —— 时间

        不同时间上收集到的数据,描述现象随时间变化的情况。

        序列数据 —— 文本

        由一串有序的文本组成的序列,需要进行分词。

                

        序列数据 —— 图像

        有序图像组成的序列,后一帧图像可能会受前一帧的影响

                

1.2、序列模型

        Sequence Model:用于处理和预测序列数据的模型

1.2.1、自回归模型 AR模型

        

1.2.2、隐变量自回归模型        

        RNN属于隐变量自回归模型。

        防止 history 过长。

        动态变化的隐变量链也称为隐变量动态模型。

        



2、文本数据预处理

主要流程

        中文文本需要用分词算法来完成分词;

        英文文本需要拼写检查、词干提取词形还原。

        分词 也叫 词元化。

        

②、去除噪声 Text Cleaning

        删除文本中不相关或者无用的信息,提高文本处理的效率,

        非文本内容可直接使用re表达式进行删除。

        停用词:英文介词、代词、连词等,中文助词、量词、叹词等。

        

③、词元化 / 分词 / 令牌化 Tokenization

        把输入的文本流,切分成一个个子串。

④、去除停用词

        文本中出现频率过高或者并不具有实际意义的词。

⑤、标准化 主要针对英文

        词干提取 (stemming):抽取词的词干或词根形式

        词形还原(lemmatization) :把任何形式语言词汇还原为一般形式

⑥、构造词表

        将文本中出现的所有词汇组成列表

        1、遍历数据集,统计词频

        2、过滤高频词和低频词,保留中间频率词

        3、为每个词分配一个编号,并建立词表

 ⑦、特征提取 

*** 存疑

        词袋模型 ,不考虑每个单词的顺序,只是统计每个词出现的次数。

                Bag of Words:根据词表中单词在句子中出现次数转化为向量。

                —— 然后对这样的一个 矩阵/数组/列表 进行编码就可以对他进行向量化了。

                

        N-gram模型:基于概率的判别式语言模型,可以捕捉到词与词之间的关系。

                将文本表示成连续的n个词的序列。

                

        词嵌入 Word Embedding:是将词表现为实数向量的一种方法,可以捕捉到词和词之间的语义和语法关系,使得词之间可以通过数学计算进行比较和计算。

        常用的词嵌入模型包括:

                word2vec:通过预测上下文中的词来学习词向量。

                GloVe:通过统建词和词之间的贡献的关系。

                



3、循环神经网络 Recurrent Neura Network

        为什么全连接网络处理不好序列的数据?

        因为全连接网络结构上就没有顺序相关的这种处理模块。


3.1、展开计算图

         计算图是形式化一组计算结构的形式。

         展开 (unfolding)计算图导致深度网络结构中的参数共享。

         箭头表示信息流动,小黑方块表示一种计算关系。

        


3.2、网络结构及变体

网络结构

        在隐藏层之间构建了循环层。

        

        红色小球代表输入数据。每一行的网络都可以看成一个完整的全连接层。

        U 是当前时间步的输入到隐藏层的一个权重;

        W 是上一个时间步的隐藏状态再到当前隐藏状态的一个权重;

        V 是隐藏层到输出层的权重。

        

        正是因为有了隐藏层之间黄色的连线,隐藏层间连接形成循环神经网络,模型由此具备了记忆能力。

        不是网络结构更加复杂了,只是把不同时间隐藏层的状态记住了,换句话说就是不同的隐藏层之间共享W。

        

        若从隐藏层的变换函数来说,就是多了一个方向的输入。

        

        换个表示方式:

                h 是隐藏层的状态,L 是输出的损失,y 是训练目标,通过计算 y 和 o 之间的误差 L 来训练整个网络。

                U:输入和隐藏层之间的变换;

                V:隐藏层和输出 o 之间的变换;

                W:隐藏层之间共享的参数,可以叫 state transition 或者 dynamics。

                三组权重参数 U V W 一起训练。

        


网络结构变体

3.2.1、free-running mode

        训练迭代过程早期的RNN预测能力非常弱,几乎不能给出好的生成结果。如果某一个unit产生了垃圾结果,必然会影响后面一片unit的学习。 

        因为没有从 h t-1向前传播的直接链接,信息是通过 h t-1 产生的预测间接的链接到当前的隐藏层变量 ht,

        这使得RNN网络结构简化,相对来说更容易训练,这是因为每个时间步可以与其他时间步进行分离训练,允许训练期间有更多的并行化。

        

其实RNN存在着两种训练模式(mode):

        free-running mode
         teacher-forcing mode

        free-running mode就是大家常见的那种训练网络的方式:上一个state的输出作为下一个state的输入。

        而Teacher Forcing是一种快速有效地训练循环神经网络模型的方法,该模型使用来自先验时间步长的输出作为输入。


3.2.2、Teacher Forcing

        Teacher Forcing是一种快速有效地训练循环神经网络模型的方法,该模型使用来自先验时间步长的输出作为输入。

        它是一种网络训练方法,对于开发用于机器翻译,文本摘要,图像字幕的深度学习语言模型以及许多其他应用程序至关重要。它每次不使用上一个state的输出作为下一个state的输入,而是直接使用训练数据的标准答案(ground truth)的对应上一项作为下一个state的输入。

        因为依赖标签数据,相当于解耦了,在训练过程中,模型会有较好的效果,但是在测试的时候因为不能得到ground truth的支持,所以如果目前生成的序列在训练过程中有很大不同,模型就会变得脆弱。

        也就是说,这种模型的cross-domain能力会更差,也就是如果测试数据集与训练数据集来自不同的领域,模型的performance就会变差。

         



*** 存疑

4、RNN的反向传播 —— BPTT 随时间反向传播算法

        RNN的反向传播称为 BPTT算法。回到过去改变权重。

        Backpropagation Through Time:将序列数据的每个时间步看作一层,然后在每个时间步上使用标准 BP 算法来计算梯度。

        

        对于每一个时间步 t  ,计算损失函数对网络参数的梯度 L(t),

        并将这些梯度的值累加起来得到总的损失:

        然后通过计算总损失的偏导数来更新网络参数。

        对于每一个节点 N ,我们需要 N 自己的 和 N 后面的所有的节点的梯度递归的计算 N 的 梯度:

        因为 L = L1+L2+L3+...+Lt,所以

        因为L^{(t)} = y_{t}-\hat{y}_{t},他们之间的差我们通常会用交叉熵损失衡量,

                采用负对数似然做损失,其中 \hat{y}_{t} = softmax(o_{t})

        则,其中 1 是真值矩阵。

        从序列的末尾开始,反向递归计算各个部分各个节点以及他们参数的偏导,这就是BPTT的目标了。

        首先我们来看它的末尾。

        最后一步 假如是 时间 τ,所以只需要对 o (τ) 求偏导数就可以了。

        根据输出方程,得出

        再来看 ht:

                

        

                 

        

整体流程:

        1、训练数据前向传播

                

        2、计算各时间预测值 y hat 与训练值比较,计算总损失 L

                

                

        3、反向传播求各个参数的梯度

                

                

        4、根据梯度更新参数

                



5、循环神经网络代码实现

5.1、时间序列数据预测

1、数据集引入

pandas_datareader 库用于从网络获取经济数据,其中 get_data_fred 函数用于从 FRED (Federal Reserve Economic Data) 获取数据。在这个例子里,GS10 是美国国债收益率的代码,它将会返回与美国10年期国债收益率相关的数据。 

import pandas_datareader as pdr
gs10 = pdr.get_data_fred('GS10')
gs10.head()
GS10
DATE
2018-02-012.86
2018-03-012.84
2018-04-012.87
2018-05-012.98
2018-06-012.91

绘制数据图像

import matplotlib.pyplot as plt
plt.plot(gs10)
plt.show()

序列数据没办法直接使用,需要进行预处理。

        对原始数据进行切分。

        n 是超参数。用多少个去预测下一个元素。

        

2、数据预处理

初始化特征序列,列数就是预测序列的长度 seq,行数是 n - seq。

行数不是 n 的原因是因为最初的几条信息无法用来构建数据集,他们缺失了更早的时序信息。

  • X_feature 是一个形状为 (num-seq_len, seq_len) 的全零张量,用于存储特征矩阵。
  • 在循环中,从 x 中切片取出长度为 num-seq_len 的子序列,并将它们赋值给 X_feature 的不同列,以构建特征矩阵。

而这段代码的最后一行 y_label = x[seq_len:].reshape((-1, 1)) 的作用是构建输出标签 y_label,具体来说:

  • x[seq_len:] 表示从 x 中切片取出从索引 seq_len 开始到末尾的子序列,即去掉了前 seq_len 个时间步的数据。
  • .reshape((-1, 1)) 将切片得到的一维数组重新调整为形状为 (-1, 1) 的二维数组。其中 -1 表示自动计算该维度的大小,这里表示将数组变成一列。

特征矩阵 X_feature 的前 num-seq_len 个样本和输出标签 y_label 的前 num-seq_len 个样本作为输入。 

import torch
from torch.utils.data import DataLoader, TensorDataset

num = len(gs10)                           # 总数据量
x = torch.tensor(gs10['GS10'].to_list())  # 股价列表
seq_len = 6                               # 预测序列长度
batch_size = 4                            # 设置批大小

X_feature = torch.zeros((num - seq_len, seq_len))      # 全零初始化特征矩阵,num-seq_len行,seq_len列
for i in range(seq_len):
    X_feature[:, i] = x[i: num - seq_len + i]    # 为特征矩阵赋值
y_label = x[seq_len:].reshape((-1, 1))           # 真实结果列表

train_loader = DataLoader(TensorDataset(X_feature[:num-seq_len], 
    y_label[:num-seq_len]), batch_size=batch_size, shuffle=True)  # 构建数据加载器
train_loader.dataset[:batch_size]
(tensor([[2.8600, 2.8400, 2.8700, 2.9800, 2.9100, 2.8900],
         [2.8400, 2.8700, 2.9800, 2.9100, 2.8900, 2.8900],
         [2.8700, 2.9800, 2.9100, 2.8900, 2.8900, 3.0000],
         [2.9800, 2.9100, 2.8900, 2.8900, 3.0000, 3.1500]]),
 tensor([[2.8900],
         [3.0000],
         [3.1500],
         [3.1200]]))


先用  基本神经网络模型 看看效果:

3、构建基本神经网络模型

from torch import nn
from tqdm import *

class Model(nn.Module):
    def __init__(self, input_size, output_size, num_hiddens):
        super().__init__()
        self.linear1 = nn.Linear(input_size, num_hiddens)
        self.linear2 = nn.Linear(num_hiddens, output_size)

    
    def forward(self, X):
        output = torch.relu(self.linear1(X))
        output = self.linear2(output)
        return output

# 定义超参数
input_size = seq_len
output_size = 1
num_hiddens = 10  
lr = 0.01

# 建立模型
model = Model(input_size, output_size, num_hiddens)
criterion = nn.MSELoss(reduction='none')
trainer = torch.optim.Adam(model.parameters(), lr)

4、模型训练

num_epochs = 20
loss_history = []

for epoch in tqdm(range(num_epochs)):
    # 批量训练
    for X, y in train_loader:
        trainer.zero_grad()
        y_pred = model(X)
        loss = criterion(y_pred, y)
        loss.sum().backward()
        trainer.step()
     # 输出损失
    model.eval()
    with torch.no_grad():
        total_loss = 0
        for X, y in train_loader:
            y_pred = model(X)
            loss = criterion(y_pred, y)
            total_loss += loss.sum()/loss.numel()
        avg_loss = total_loss / len(train_loader)
        print(f'Epoch {epoch+1}: Validation loss = {avg_loss:.4f}')
        loss_history.append(avg_loss)
    
# 绘制损失和准确率的曲线图
import matplotlib.pyplot as plt
plt.plot(loss_history, label='loss')
plt.legend()
plt.show()
100%|██████████| 20/20 [00:00<00:00, 130.13it/s]
Epoch 1: Validation loss = 0.7089
Epoch 2: Validation loss = 0.4812
Epoch 3: Validation loss = 0.2999
Epoch 4: Validation loss = 0.2695
Epoch 5: Validation loss = 0.2106
Epoch 6: Validation loss = 0.2270
Epoch 7: Validation loss = 0.1922
Epoch 8: Validation loss = 0.1899
Epoch 9: Validation loss = 0.1816
Epoch 10: Validation loss = 0.1578
Epoch 11: Validation loss = 0.1442
Epoch 12: Validation loss = 0.1734
Epoch 13: Validation loss = 0.1430
Epoch 14: Validation loss = 0.1842
Epoch 15: Validation loss = 0.1331
Epoch 16: Validation loss = 0.1289
Epoch 17: Validation loss = 0.1232
Epoch 18: Validation loss = 0.1135
Epoch 19: Validation loss = 0.1444
Epoch 20: Validation loss = 0.1159

 5、模型预测

单步预测:使用序列模型对序列数据进行预测,只预测序列的下一个元素。

preds = model(X_feature)
time = torch.arange(1, num+1, dtype= torch.float32)  # 时间轴

plt.plot(time[:num-seq_len], gs10['GS10'].to_list()[seq_len:num], label='gs10')
plt.plot(time[:num-seq_len], preds.detach().numpy(), label='preds')
plt.legend()
plt.show()


5.2、RNN模型预测

1、数据预处理

        一般神经网络模型结构如下: N to 1

        

        循环神经网络模型结构如下:N to N

        

       此时模型输出不再是一个简单的标量,而是x2到x7这样一个向量。

        Y_label变成了一个矩阵。

        为了使用RNN进行计算,需要对  X_feature 进行升维操作。

 

  • x[i:num-seq_len+i] 表示从 x 中提取从索引 i 开始,长度为 seq_len 的子序列。

  • 这个操作用于构建输入特征 X_feature。在每次循环中,我们将从 x 中切出长度为 seq_len 的子序列,并将它们放到 X_feature 的不同列中,以构建模型的输入。

  • x[i+1:num-seq_len+i+1] 表示从 x 中提取从索引 i+1 开始,长度为 seq_len 的子序列。

  • 这个操作用于构建输出标签 Y_label。在每次循环中,我们将从 x 中切出长度为 seq_len 的另一个子序列,并将它们放到 Y_label 的不同列中,以构建模型的输出。

综上所述,这些切片操作帮助我们按照滑动窗口的方式从时间序列数据中提取输入特征和对应的输出标签,以便用于训练模型。

import torch
from torch.utils.data import DataLoader, TensorDataset

num = len(gs10)                           # 总数据量,59
x = torch.tensor(gs10['GS10'].to_list())  # 股价列表
seq_len = 6                               # 预测序列长度
batch_size = 4                            # 设置批大小

X_feature = torch.zeros((num - seq_len, seq_len))      # 构建特征矩阵,num-seq_len行,seq_len列,初始值均为0
Y_label = torch.zeros((num - seq_len, seq_len))        # 构建标签矩阵,形状同特征矩阵
for i in range(seq_len):
    X_feature[:, i] = x[i: num - seq_len + i]    # 为特征矩阵赋值
    Y_label[:, i] = x[i+1: num - seq_len + i + 1]    # 为标签矩阵赋值

train_loader = DataLoader(TensorDataset(
    X_feature[:num-seq_len].unsqueeze(2), Y_label[:num-seq_len]),
    batch_size=batch_size, shuffle=True)  # 构建数据加载器

在代码中,最后一个 unsqueeze(2) 的目的是为了将 X_feature 的维度从 (num-seq_len, seq_len) 转换为 (num-seq_len, seq_len, 1)

在这段代码中,我们将时间序列数据作为特征矩阵 X_feature,其形状为 (num-seq_len, seq_len)。然而,RNN 模型通常要求输入为三维张量,其中最后一个维度表示特征的数量。

通过使用 unsqueeze(2) 函数,我们在 X_feature 张量上插入一个维度,将其形状从 (num-seq_len, seq_len) 扩展为 (num-seq_len, seq_len, 1)。这样做是为了与 RNN 模型的输入要求相匹配,其中最后一个维度表示特征的数量(这里是 1)。

需要注意的是,对于 RNN 模型来说,时间序列数据通常被看作是一个三维张量,在第一个维度上表示样本的索引,在第二个维度上表示时间步的索引,在第三个维度上表示特征值的索引。因此,为了适应 RNN 模型的输入要求,我们需要将时间序列数据转换成三维张量的形式,即 (num-seq_len, seq_len, 1)

总之,最后的 unsqueeze(2) 操作是为了将时间序列数据转换为 RNN 模型所需的三维张量形式,以便进行训练和预测。

train_loader.dataset[:batch_size]
(tensor([[[2.8600],
          [2.8400],
          [2.8700],
          [2.9800],
          [2.9100],
          [2.8900]],
 
         [[2.8400],
          [2.8700],
          [2.9800],
          [2.9100],
          [2.8900],
          [2.8900]],
 
         [[2.8700],
          [2.9800],
          [2.9100],
          [2.8900],
          [2.8900],
          [3.0000]],
 
         [[2.9800],
          [2.9100],
          [2.8900],
          [2.8900],
          [3.0000],
          [3.1500]]]),
 tensor([[2.8400, 2.8700, 2.9800, 2.9100, 2.8900, 2.8900],
         [2.8700, 2.9800, 2.9100, 2.8900, 2.8900, 3.0000],
         [2.9800, 2.9100, 2.8900, 2.8900, 3.0000, 3.1500],
         [2.9100, 2.8900, 2.8900, 3.0000, 3.1500, 3.1200]]))

2、构建循环神经网络模型

因为每个元素是一个一个元素输入再一个一个输出,所以input_size和output_size都设置为1。

在 PyTorch 中,张量的 size() 方法可以返回张量的形状,也就是它在每个维度上的长度。对于一个二维张量(即矩阵)来说,size() 方法返回一个元组 (num_rows, num_cols),其中 num_rows 表示矩阵的行数,num_cols 表示矩阵的列数。

在深度学习中,通常使用小批量训练来提高模型的泛化能力和收敛速度,因此我们需要知道每个批次的样本数量。而批次大小实际上就是输入张量的第一个维度的长度,也就是 X.size(0) 的值。

因此,通过调用 X.size(0) 方法,我们可以获取输入张量 X 的批次大小,从而在 RNN 模型中进行相应的初始化和计算。

begin_state 方法中,将隐藏状态初始化为全零张量。在这个方法中,batch_size 参数默认值为 1,这是因为在某些情况下,我们可能只需要对单个样本进行前向传播,而不是一个批次的样本。

在深度学习中,通常会使用小批量训练来提高模型的泛化能力和收敛速度。但是,有时候也会需要对单个样本进行推断或生成,例如在生成文本时,我们可能逐步生成每个单词,而不是一次生成整个句子。此时,我们只需要一个样本的隐藏状态。

因此,在 begin_state 方法中,默认将 batch_size 设置为 1,以支持单个样本的处理。当我们需要处理多个样本时,可以通过将 batch_size 参数设置为相应的值来初始化相应大小的隐藏状态。

 

from torch import nn
from tqdm import *

class RNNModel(nn.Module):
    def __init__(self, input_size, output_size, num_hiddens, n_layers):
        super(RNNModel, self).__init__()
        self.num_hiddens = num_hiddens
        self.n_layers = n_layers
        self.rnn = nn.RNN(input_size, num_hiddens, n_layers, batch_first = True)
        self.linear = nn.Linear(num_hiddens, output_size)
       
    def forward(self, X):
        batch_size = X.size(0)
        state = self.begin_state(batch_size)
        output, state = self.rnn(X, state)
        output = self.linear(torch.relu(output))
        return output, state

    def begin_state(self, batch_size=1):
        return  torch.zeros(self.n_layers, batch_size, self.num_hiddens)

# 定义超参数
input_size = 1
output_size = 1
num_hiddens = 10
n_layers = 1
lr = 0.01

# 建立模型
model = RNNModel(input_size, output_size, num_hiddens, n_layers)
criterion = nn.MSELoss(reduction='none')
trainer = torch.optim.Adam(model.parameters(), lr)

3、训练

  • y_pred: 维度为 (batch_size, seq_len, output_size)
  • Y: 维度为 (batch_size, seq_len)

在损失函数计算部分,通过调用 squeeze() 方法对 y_predY 进行了维度压缩,使得它们的维度变为 (batch_size, seq_len)。这样可以逐元素地计算损失函数。

num_epochs = 20
rnn_loss_history = []

for epoch in tqdm(range(num_epochs)):
    # 批量训练
    for X, Y in train_loader:
        trainer.zero_grad()
        y_pred, state = model(X)
        loss = criterion(y_pred.squeeze(), Y.squeeze())
        loss.sum().backward()
        trainer.step()
     # 输出损失
    model.eval()
    with torch.no_grad():
        total_loss = 0
        for X, Y in train_loader:
            y_pred, state = model(X)
            loss = criterion(y_pred.squeeze(), Y.squeeze())
            total_loss += loss.sum()/loss.numel()
        avg_loss = total_loss / len(train_loader)
        print(f'Epoch {epoch+1}: Validation loss = {avg_loss:.4f}')
        rnn_loss_history.append(avg_loss)
    
# 绘制损失曲线图
import matplotlib.pyplot as plt
plt.plot(loss_history, label='loss')
plt.plot(rnn_loss_history, label='RNN_loss')
plt.legend()
plt.show()
 35%|███▌      | 7/20 [00:00<00:00, 62.68it/s]Epoch 1: Validation loss = 1.2063
Epoch 2: Validation loss = 0.6640
Epoch 3: Validation loss = 0.6163
Epoch 4: Validation loss = 0.5854
Epoch 5: Validation loss = 0.4029
Epoch 6: Validation loss = 0.3159
Epoch 7: Validation loss = 0.1687
Epoch 8: Validation loss = 0.1145
Epoch 9: Validation loss = 0.0840
Epoch 10: Validation loss = 0.0751
Epoch 11: Validation loss = 0.1014
Epoch 12: Validation loss = 0.0798
Epoch 13: Validation loss = 0.0535
100%|██████████| 20/20 [00:00<00:00, 63.90it/s]Epoch 14: Validation loss = 0.0552
Epoch 15: Validation loss = 0.0517
Epoch 16: Validation loss = 0.0510
Epoch 17: Validation loss = 0.0488
Epoch 18: Validation loss = 0.0574
Epoch 19: Validation loss = 0.0516
Epoch 20: Validation loss = 0.0457

4、预测

rnn_preds,_ = model(X_feature.unsqueeze(2))
preds.squeeze()
time = torch.arange(1, num+1, dtype= torch.float32)  # 时间轴

plt.plot(time[:num-seq_len], gs10['GS10'].to_list()[seq_len:num], label='gs10')
plt.plot(time[:num-seq_len], preds.detach().numpy(), label='preds')
plt.plot(time[:num-seq_len], rnn_preds[:,seq_len-1].detach().numpy(), label='RNN_preds')
plt.legend()
plt.show()

x
tensor([2.8600, 2.8400, 2.8700, 2.9800, 2.9100, 2.8900, 2.8900, 3.0000, 3.1500,
        3.1200, 2.8300, 2.7100, 2.6800, 2.5700, 2.5300, 2.4000, 2.0700, 2.0600,
        1.6300, 1.7000, 1.7100, 1.8100, 1.8600, 1.7600, 1.5000, 0.8700, 0.6600,
        0.6700, 0.7300, 0.6200, 0.6500, 0.6800, 0.7900, 0.8700, 0.9300, 1.0800,
        1.2600, 1.6100, 1.6400, 1.6200, 1.5200, 1.3200, 1.2800, 1.3700, 1.5800,
        1.5600, 1.4700, 1.7600, 1.9300, 2.1300, 2.7500, 2.9000, 3.1400, 2.9000,
        2.9000, 3.5200, 3.9800, 3.8900, 3.6200])



 6、RNN的长期依赖问题

什么是长期依赖?

        当前系统的状态,可能依赖很长时间之前系统状态。

        

长期记忆失效的原因 —— 权重矩阵连乘

        假定循环链接非常简单,去掉激活函数。

        

        h0 的系数乘指数级增长,W^t ,若W特征值的幅值如果小于1,那么就是指数级的衰减。

        则会导致类似于蝴蝶效应的现象,初始条件的很小变化就会导致结果严重的变化。

        

激活函数的选择

        RNN中可以用ReLU函数,但不能解决梯度消失、爆炸问题。

        对矩阵W的初始值敏感,十分容易引发数值问题。

        梯度的消失和爆炸沿着时间轴的级联导致的。

为什么CNN不会出现这个问题?

        因为CNN中每一层卷积的权重是不相同的,并且初始化时是独立的同分布的,因此可以互相抵消,多层之后一般不会引发数值问题。

        而RNN是共用相同的权重矩阵W,只有当W取在单位矩阵附近的时候才会有好的效果。

*** 存疑

截断时间步 TBPTT算法

        每向前传播k1步,也向后传播k2步。

        

       



部分内容参考

【循环神经网络】5分钟搞懂RNN,3D动画深入浅出_哔哩哔哩_bilibili

一文弄懂关于循环神经网络(RNN)的Teacher Forcing训练机制_free-running mode-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/273953.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

GA/T1400公安视图库在视频监控系统中对接及方案

公安视频图像信息应用系统系列标准&#xff0c;标号为GA/T 1400&#xff0c;现行版本为2017年版&#xff0c;由公安部发布。现较广泛地使用于平安城市安防监控系统、智慧城市安防监控系统、雪亮工程安防监控系统之中。 公安视频图像信息应用系统系列标准&#xff0c;共分为4个部…

java美容管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java Web美容管理系统是一套完善的java web信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为Mysql5.0&…

电路设计(8)——计时器的multism仿真

1.功能设计 这是一个计时电路&#xff0c;在秒脉冲的驱动下&#xff0c;计时器开始累加&#xff0c;6个数码管分别显示计时的 时&#xff1a;分&#xff1a;秒。 仿真图如下所示&#xff1a; 左边的运放构成了振荡电路&#xff0c;可以产生脉冲波。这个脉冲波给计时电路提供基准…

金蝶云星空 多处反序列化RCE漏洞复现

0x01 产品简介 金蝶云星空是一款云端企业资源管理(ERP)软件,为企业提供财务管理、供应链管理以及业务流程管理等一体化解决方案。金蝶云星空聚焦多组织,多利润中心的大中型企业,以 “开放、标准、社交”三大特性为数字经济时代的企业提供开放的 ERP 云平台。服务涵盖:财…

关于“Python”的核心知识点整理大全44

目录 ​编辑 15.3.4 模拟多次随机漫步 rw_visual.py 注意 15.3.5 设置随机漫步图的样式 15.3.6 给点着色 rw_visual.py 15.3.7 重新绘制起点和终点 rw_visual.py 15.3.8 隐藏坐标轴 rw_visual.py 15.3.9 增加点数 rw_visual.py 15.3.10 调整尺寸以适合屏幕 rw_vi…

【Linux】生产者消费者模型(阻塞队列与环形队列)和POSIX信号量

文章目录 一、生产者消费者模型二、基于BlockingQueue的生产者消费者模型1.BlockQueue.hpp2.Task.hpp3.main.cc 三、POSIX信号量四、基于环形队列的生产消费模型1.RingQueue.hpp2.Task.hpp3.main.cc 一、生产者消费者模型 我们这里举一个例子&#xff0c;来解释生产者消费者模…

数据库的系统概述1

1.1 信息&#xff0c;数据&#xff0c;数据处理与数据管理 数据&#xff1a; 数据是描述事务的符号记录 信息&#xff1a; 信息是一种已经被加工为特定形式的数据&#xff0c;这种数据对接受者来说 是有意义的 数据管理&#xff1a; 利用计算机对收集的数据进行整理&#xff0…

redis cluster判断key属于那个分片。

一、判断阿里云 redis cluster&#xff0c;的key属于那个分片。 阿里云特有的命令info key 可以查看key属于那个slot&#xff0c;那个分片 命令行查看&#xff1a; xxxx:6379> info key xxxx_compressed_xxx slot:4941 node_index:9 xxxx:6379> cluster keyslot xxxx_…

详解结构体(包含结构体内存对齐,柔性数组,位段)【尊嘟很详细】

​ 结构体 结构体是一些值的集合&#xff0c;这些值称为成员变量&#xff0c;结构的成员可以是标量、数组、指针,甚至是其他结构体。 成员名可以与程序中其它变量同名&#xff0c;互不干扰。 结构体的定义 &#xff08;struct结构名{}&#xff09; struct books {int a;c…

最小覆盖子串(Java详解)

目录 一、题目描述 二、题解 一、题目描述 给定两个字符串 s 和 t 。返回 s 中包含 t 的所有字符的最短子字符串。如果 s 中不存在符合条件的子字符串&#xff0c;则返回空字符串 "" 。 如果 s 中存在多个符合条件的子字符串&#xff0c;返回任意一个。 注意&…

【IO】IO模型与零拷贝

前言&#xff1a; 正在运行的程序其实就是系统中的一个进程&#xff0c;操作系统会为每一个进程分配内存空间&#xff0c;而内存空间分为两部分&#xff0c;一部分是用户空间&#xff0c;这是用户进程访问的内存区域&#xff1b;另一部分是内核空间&#xff0c;是操作系统内核访…

详解Keras3.0 Layer API: LSTM layer

LSTM layer 用于实现长短时记忆网络&#xff0c;它的主要作用是对序列数据进行建模和预测。 遗忘门&#xff08;Forget Gate&#xff09;&#xff1a;根据当前输入和上一个时间步的隐藏状态&#xff0c;计算遗忘门的值。遗忘门的作用是控制哪些信息应该被遗忘&#xff0c;哪些…

vue2、vue3状态管理之vuex、pinia

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、状态管理之vuex1.1 State调用&#xff1a;1.2 Mutation在vuex中定义&#xff1a;在组件中使用&#xff1a; 1.3 Action在vuex中定义&#xff1a;将上面的减…

Vue 自定义ip地址输入组件

实现效果&#xff1a; 组件代码 <template><div class"ip-input flex flex-space-between flex-center-cz"><input type"text" v-model"value1" maxlength"3" ref"ip1" :placeholder"placeholder"…

VMware之FTP的简介以及搭建使用计算机端口的介绍

&#x1f3ac; 艳艳耶✌️&#xff1a;个人主页 &#x1f525; 个人专栏 &#xff1a;《产品经理如何画泳道图&流程图》 ⛺️ 越努力 &#xff0c;越幸运 目录 一、FTP介绍 1、什么是FTP&#xff1a; 2、FTP适用于以下情况和应用场景&#xff1a; 3、winServer2012搭…

Verilog置换处理脚本

文章目录 一、介绍二、脚本 一、介绍 在Verilog中的置换处理&#xff0c;为将一个数据的数据位按照某种规则进行重新排列。 以DES算法的初始置换为例 初始置换将64比特的明文&#xff0c;按照初始置换表进行置换&#xff0c;得到一个乱序的64bit明文组。 初始置换表如下&…

加速计算,为何会成为 AI 时代的计算力“新宠”

随着科技的发展&#xff0c;处理大量数据和进行复杂计算的需求越来越高&#xff0c;人工智能、大数据和物联网等领域更是如此&#xff0c;传统的计算方式已经无法满足这些需求。因此&#xff0c;加速计算作为一种现代计算方式&#xff0c;成了必要的手段。加速计算具有前所未有…

为什么设计制造行业需要数据加密?

设计制造行业是一个涉及多种技术、工艺、材料和产品的广泛领域&#xff0c;它对经济和社会的发展有着重要的影响。然而&#xff0c;随着数字化、智能化和网络化的发展&#xff0c;设计制造行业也面临着越来越多的数据安全风险&#xff0c;如数据泄露、数据篡改、数据窃取等。这…

Qt Creator可视化交互界面exe快速入门4

上一期介绍了信号与槽&#xff0c;本期介绍加法计算器 我们来新建一个项目 然后拖动设置按钮 还需要个输出框 这里拖动Line Edit 我这里只是简单演示一下&#xff0c;做个低配版计算器&#xff0c;再加个加号和一个等于号就结束了。 然后回到代码编辑部分&#xff0c;我们需要…

代码随想录27期|Python|Day29|回溯算法|491.递增子序列|46.全排列|47.全排列 II

491. 非递减子序列 本题不是单纯的去重题目&#xff0c;而是需要保持数字在原数组的顺序。 比如&#xff1a;[4,5,6,7]和[4,6,5,7]相比&#xff0c;后者就不能选择[5,6,7]这个排列&#xff0c;因为违反了设置的顺序。所以去重的方法就只有哈希表。 需要在每一层设置一个哈希表…