[mcj]pytorch中LSTM的输入输出解释||LSTM输入输出详解-马春杰杰

最近想了解一些关于LSTM的相关知识，在进行代码测试的时候，有个地方一直比较疑惑，关于LSTM的输入和输出问题。一直不清楚在pytorch里面该如何定义LSTM的输入和输出。首先看个pytorch官方的例子：

# 首先导入LSTM需要的相关模块
import torch
import torch.nn as nn             # 神经网络模块

# 数据向量维数10, 隐藏元维度20, 2个LSTM层串联(如果是1，可以省略，默认为1)
rnn = nn.LSTM(10, 20, 2) 

# 序列长度seq_len=5, batch_size=3, 数据向量维数=10
input = torch.randn(5, 3, 10)

# 初始化的隐藏元和记忆元,通常它们的维度是一样的
# 2个LSTM层，batch_size=3,隐藏元维度20
h0 = torch.randn(2, 3, 20)
c0 = torch.randn(2, 3, 20)

# 这里有2层lstm，output是最后一层lstm的每个词向量对应隐藏层的输出,其与层数无关，只与序列长度相关
# hn,cn是所有层最后一个隐藏元和记忆元的输出
output, (hn, cn) = rnn(input, (h0, c0))

# 首先导入LSTM需要的相关模块

import torch

import torch.nn as nn # 神经网络模块

# 数据向量维数10, 隐藏元维度20, 2个LSTM层串联(如果是1，可以省略，默认为1)

rnn = nn.LSTM(10, 20, 2)

# 序列长度seq_len=5, batch_size=3, 数据向量维数=10

input = torch.randn(5, 3, 10)

# 初始化的隐藏元和记忆元,通常它们的维度是一样的

# 2个LSTM层，batch_size=3,隐藏元维度20

h0 = torch.randn(2, 3, 20)

c0 = torch.randn(2, 3, 20)

# 这里有2层lstm，output是最后一层lstm的每个词向量对应隐藏层的输出,其与层数无关，只与序列长度相关

# hn,cn是所有层最后一个隐藏元和记忆元的输出

output, (hn, cn) = rnn(input, (h0, c0))

在这里如果我们打印output、hn、cn的shape，我们可以看到，torch的输出已经变成了定义中的20。

print(output.size(),hn.size(),cn.size())
torch.Size([5, 3, 20]) torch.Size([2, 3, 20]) torch.Size([2, 3, 20])

1 2	print(output.size(),hn.size(),cn.size()) torch.Size([5, 3, 20]) torch.Size([2, 3, 20]) torch.Size([2, 3, 20])

接着来看一下LSTM的参数都有哪些：

LSTM一共有7个参数，其中前三个是必须的，分别为：input_size, hidden_size, num_layers.

1 input_size

在这里首先对输入解释一下，nn.LSTM()的第一个参数为输入的序列维度，它对应着torch.randn()中的第三个参数10。可能有人不太明白这个这个函数是怎么回事，在这里解释一下：

torch.randn(5, 3, 10)会生成五组数据，每组数据有3行10列。如果用在视频中的话，这里的5等于每个视频抽取的帧数，如果视频分辨率为100*100，则第二个参数为10000，若视频为彩色三通道的话，第三个参数为3，即输入序列变为（5,10000,3），看一下这张图：

[mcj]pytorch中LSTM的输入输出解释||LSTM输入输出详解

上图是一个完整的LSTM流程，上面生成的五组数据就对应了五个A，即一个LSTM中有五个神经元。

再举个例子，比如现在有5个句子，每个句子由3个单词组成，每个单词用10维的向量组成，这样参数为：seq_len=3, batch=5, input_size=10.

输入LSTM中的X数据格式尺寸为(seq_len, batch, input_size)，此外h0和c0尺寸如下

h0(num_layers * num_directions, batch_size, hidden_size)

c0(num_layers * num_directions, batch_size, hidden_size)

2 hidden_size

[mcj]pytorch中LSTM的输入输出解释||LSTM输入输出详解

对照上图可以看出，隐藏层数即为中间的节点数量。这个数量可以由用户自定义。

3 num_layers

这个是LSTM的层数，默认是1，如果我们设置为2的话，第一层计算得到h，然后把h作为输入，输给第二层。然后在最后输出最终的O。

4 bias

表示是否添加bias偏置，默认为true

5 batch_first

与LSTM的输入格式有关。

输入输出的第一维是否为 batch_size，默认值 False。因为 Torch 中，人们习惯使用Torch中带有的dataset，dataloader向神经网络模型连续输入数据，这里面就有一个 batch_size 的参数，表示一次输入多少个数据。在 LSTM 模型中，输入数据必须是一批数据，为了区分LSTM中的批量数据和dataloader中的批量数据是否相同意义，LSTM 模型就通过这个参数的设定来区分。如果是相同意义的，就设置为True，如果不同意义的，设置为False。 torch.LSTM 中 batch_size 维度默认是放在第二维度，故此参数设置可以将 batch_size 放在第一维度。如：input 默认是(4,1,5)，中间的 1 是 batch_size，指定batch_first=True后就是(1,4,5)。所以，如果你的输入数据是二维数据的话，就应该将 batch_first 设置为True;

6 dropout

是否进行dropout操作，默认为0，输入值范围为0~1的小数，表示每次丢弃的百分比。一般用来防止过拟合。

7 bidirectional

是否进行双向RNN，默认为false。

[mcj]pytorch中LSTM的输入输出解释||LSTM输入输出详解