lst模型python lstm模型原理

转载

人类新新 2024-06-04 05:32:39

文章标签 lst模型python 重置网络层 Memory 文章分类 Python 后端开发

LSTM网络

long short term memory，即LSTM，是为了解决长期以来问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构，例如一个tanh层。

LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互。

图中使用的各种元素的图标：

每一条黑线传输着一整个向量，从一个节点的输出到其他节点的输入。粉色的圈代表 pointwise 的操作，如向量的和，黄色的矩阵就是学习到的神经网络层。合在一起的线表示向量的连接，分开的线表示内容被复制，然后分发到不同的位置

LSTM核心思想

LSTM的关键在于细胞的状态整个(绿色的图表示的是一个cell)，和穿过细胞的那条水平线。

细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。

若只有上面的那条水平线是没办法实现添加或者删除信息的。通过门（gates）结构来实现选择性地让信息通过，主要是通过一个 sigmoid 的神经层和一个逐点相乘的操作来实现的。

sigmoid 层输出（是一个向量）的每个元素都是一个在 0 和 1 之间的实数，表示让对应信息通过的权重（或者占比）。比如， 0 表示“不让任何信息通过”， 1 表示“让所有信息通过”。

LSTM通过三个这样的本结构来实现信息的保护和控制。这三个门分别输入门、遗忘门和输出门。

逐步理解LSTM

通过三个门逐步的了解LSTM的原理：

遗忘门

LSTM 中的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过一个称为忘记门层完成。该门会读取 $lst模型python lstm模型原理_Memory$ 和 $lst模型python lstm模型原理_重置_02$ ，输出一个在 0到 1之间的数值给每个在细胞状态 $lst模型python lstm模型原理_lst模型python_03$ 中的数字。1 表示“完全保留”，0 表示“完全舍弃”。

例如基于已经看到的词预测下一个词，在这个问题中，细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来。当我们看到新的主语，我们希望忘记旧的主语。

其中 $lst模型python lstm模型原理_Memory$ 表示的是上一个cell的输出， $lst模型python lstm模型原理_网络层_05$ 表示sigmod函数。

输入门

下一步是决定让多少新的信息加入到 cell 状态中来。实现这个需要包括两个步骤：首先，一个叫做“input gate layer ”的 sigmoid 层决定哪些信息需要更新；一个 tanh 层生成一个向量，也就是备选的用来更新的内容， $lst模型python lstm模型原理_lst模型python_06$ 。在下一步，把这两部分联合起来，对 cell 的状态进行一个更新。

现在更新旧细胞状态， $lst模型python lstm模型原理_lst模型python_03$ 更新为 $lst模型python lstm模型原理_网络层_08$ 。前面的步骤已经决定了将会做什么，现在就是实际去完成。

把旧状态与 $lst模型python lstm模型原理_重置_09$ 相乘，丢弃掉确定需要丢弃的信息。接着加上 $lst模型python lstm模型原理_Memory_10$ 。这就是新的候选值，根据决定更新每个状态的程度进行变化。

在语言模型的例子中，这就是实际根据前面确定的目标，丢弃旧代词的性别信息并添加新的信息的地方。

输出门

最终，需要确定输出什么值。这个输出将会基于细胞状态，但是也是一个过滤后的版本。首先，运行一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着，把细胞状态通过 tanh 进行处理（得到一个在 -1 到 1 之间的值）并将它和 sigmoid 门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。

例如，因为他就看到了一个代词，可能需要输出与一个动词相关的信息。例如，可能输出是否代词是单数还是负数，这样如果是动词的话，我们也知道动词需要进行的词形变化。

LSTM变体

GRU（Gated Recurrent Unit ），这是由 Cho, et al. (2014) 提出。在 GRU 中，如下图所示，只有两个门：重置门（reset gate）和更新门（update gate）。同时在这个结构中，把细胞状态和隐藏状态进行了合并。最后模型比标准的 LSTM 结构要简单，而且这个结构后来也非常流行。

其中， $lst模型python lstm模型原理_lst模型python_11$ 表示重置门， $lst模型python lstm模型原理_lst模型python_12$ 表示更新门。重置门决定是否将之前的状态忘记。(作用相当于合并了 LSTM 中的遗忘门和传入门）当 $lst模型python lstm模型原理_Memory$ 会被忘掉，隐藏状态 $lst模型python lstm模型原理_重置_14$ 会被重置为当前输入的信息。更新门决定是否要将隐藏状态更新为新的状态 $lst模型python lstm模型原理_重置_14$ （作用相当于 LSTM 中的输出门）。

和 LSTM 比较一下：

GRU 少一个门，同时少了细胞状态 $lst模型python lstm模型原理_网络层_16$
在 LSTM 中，通过遗忘门和传入门控制信息的保留和传入；GRU 则通过重置门来控制是否要保留原来隐藏状态的信息，但是不再限制当前信息的传入。
在 LSTM 中，虽然得到了新的细胞状态 $lst模型python lstm模型原理_Memory_17$ ，但是还不能直接输出，而是需要经过一个过滤的处理: $lst模型python lstm模型原理_重置_18$ ；同样，在 GRU 中, 虽然我们也得到了新的隐藏状态 $lst模型python lstm模型原理_网络层_19$ ，但是还不能直接输出，而是通过更新门来控制最后的输出： $lst模型python lstm模型原理_重置_20$