AI探索(五)长短期记忆网络（LSTM）

原创

祝你今天愉快 2024-10-14 11:39:57 博主文章分类：其他 ©著作权

文章标签 AIGC LSTM 记忆网络 文章分类 llama AIGC AIGC二三事

©著作权归作者所有：来自51CTO博客作者祝你今天愉快的原创作品，如需转载，请与作者联系，否则将追究法律责任

AI探索(五)长短期记忆网络（LSTM）_记忆网络

引言

在人工智能技术的浪潮中，长短期记忆网络（LSTM）作为一种特殊的递归神经网络（RNN），凭借其独特的结构和强大的序列数据处理能力，成为了AI研究和应用的热门领域。

1. 介绍

LSTM（长短期记忆网络）是一种特殊的循环神经网络（RNN），专门设计用于克服标准RNN在处理长序列数据时出现的梯度消失问题。 LSTM 通过引入了记忆单元和门控机制，能够在较长时间跨度上记忆和保留信息，因此非常适合处理时间序列预测、自然语言处理等序列相关的任务。

2. LSTM的背景

传统的RNN在处理长序列数据时，会面临梯度消失和梯度爆炸问题。LSTM通过引入门控机制，能够有效地进行长期信息存储和短期信息遗忘，从而克服了RNN的这些局限。

3. LSTM的结构与原理

LSTM单元由三个门（输入门、遗忘门和输出门）和一个单元状态组成。通过这些门，LSTM能够选择性地保留和丢弃信息，使其在处理长序列数据时保持良好的性能。下面详细介绍这三个门的功能和作用。

AI探索(五)长短期记忆网络（LSTM）_LSTM_02

LSTM使用三种门控机制来控制信息的流动：

输入门（Input Gate）：控制当前输入的信息有多少进入记忆元。
遗忘门（Forget Gate）：控制当前记忆元中保留的信息有多少。
输出门（Output Gate）：控制隐状态的生成，决定多少记忆元的信息会传递到下一层或下一时间步。

3.1. 输入门（Input Gate）

功能：输入门控制着当前输入数据 (x_t) 进入单元状态 (C_t) 的程度。

公式：

$AI探索(五)长短期记忆网络（LSTM）_LSTM_03$

其中 (i_t) 是输入门的激活值，(sigma) 是 Sigmoid 激活函数，(W_i) 是权重矩阵，(b_i) 是偏置。
过程：

输入门首先将上一时间步的隐藏状态 (h_{t-1}) 和当前输入 (x_t) 进行连接，然后通过权重矩阵 (W_i) 和偏置 (b_i) 进行线性变换，再经过 Sigmoid 激活函数得到一个值在0到1之间的向量。这些值决定了当前输入 (x_t) 的信息在多大程度上会影响单元状态 (C_t)。

3.2. 遗忘门（Forget Gate）

功能：遗忘门决定了当前单元状态 (C_{t-1}) 中的信息有多少需要被遗忘。

公式：

$AI探索(五)长短期记忆网络（LSTM）_AIGC_04$

其中 (f_t) 是遗忘门的激活值，(W_f) 是权重矩阵，(b_f) 是偏置。
过程：

遗忘门同样将上一时间步的隐藏状态和当前输入进行连接，经过线性变换后，通过 Sigmoid 激活函数生成一个值在0到1之间的向量。这些值表示当前单元状态中每个元素的重要性，0表示完全遗忘，1表示完全保留。

3.3. 输出门（Output Gate）

功能：输出门决定了当前单元状态 (C_t) 的哪些部分将被传递到下一层或者作为当前时刻的隐藏状态输出。

公式：

$AI探索(五)长短期记忆网络（LSTM）_LSTM_05$

其中 (o_t) 是输出门的激活值，(W_o) 是权重矩阵，(b_o) 是偏置。
过程：

输出门也采用类似的方法，将上一时间步的隐藏状态和当前输入进行连接，经过线性变换后，通过 Sigmoid 激活函数生成一个值在0到1之间的向量。这些值决定了在当前时间步中，单元状态 (C_t) 的哪些部分将作为输出。

3.4 LSTM 单元的完整计算流程

结合上述三个门，LSTM 的计算过程如下：

遗忘步骤：

计算遗忘门并更新单元状态：

$AI探索(五)长短期记忆网络（LSTM）_记忆网络_06$

其中，$\tilde{C_t}$ 是当前输入经过一个 Tanh 激活函数处理后的候选状态：

$AI探索(五)长短期记忆网络（LSTM）_记忆网络_07$

输出步骤：

计算输出门，并生成当前的隐藏状态：

$AI探索(五)长短期记忆网络（LSTM）_记忆网络_08$

4. 记忆单元组件

LSTM的核心在于其记忆单元的设计，其中包括候选记忆元、记忆元和隐状态。下面详细介绍这三者的概念。

4.1 候选记忆元（Candidate Memory Cell）

候选记忆元是LSTM中用于生成新记忆的部分。它在每个时间步生成一个候选的记忆向量，决定是否将其加入到当前的记忆元中。候选记忆元的生成通常通过一个激活函数（如tanh）来处理当前输入和前一个隐状态。

AI探索(五)长短期记忆网络（LSTM）_LSTM_09

公式：

$AI探索(五)长短期记忆网络（LSTM）_LSTM_10$

其中，( W_c ) 是权重矩阵，( b_c ) 是偏置，( h_{t-1} ) 是前一个时间步的隐状态，( x_t ) 是当前时间步的输入。

4.2 记忆元（Memory Cell）

记忆元用于保存网络的长期记忆。它在每个时间步更新，以保持信息的稳定性。记忆元的更新是基于前一时刻的记忆元、当前输入和候选记忆元的结合。

AI探索(五)长短期记忆网络（LSTM）_LSTM_11

公式：

$AI探索(五)长短期记忆网络（LSTM）_记忆网络_12$

其中，( f_t ) 是遗忘门的输出，( i_t ) 是输入门的输出，( C_{t-1} ) 是前一个时间步的记忆元，( tilde{C}_t ) 是当前生成的候选记忆元。

4.3 隐状态（Hidden State）

隐状态是LSTM的输出，包含当前时刻的信息，它将被传递到下一时刻并用于输出层。隐状态由当前的记忆元和输出门共同决定。

AI探索(五)长短期记忆网络（LSTM）_AIGC_13

公式：

$AI探索(五)长短期记忆网络（LSTM）_LSTM_14$

其中，( o_t ) 是输出门的输出，( C_t ) 是当前的记忆元。

5. 示例

LSTM在许多应用中都表现出色，特别是在自然语言处理、时间序列预测和语音识别等领域。以下是一个使用LSTM进行文本生成的简单示例：

import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Embedding

# 准备数据
# 假设我们有一些文本数据，已转化为整数序列
sequences = [[1, 2, 3], [2, 3, 4], [3, 4, 5]]  # 例：简单的序列
X = np.array(sequences)[:, :-1]  # 输入
y = np.array(sequences)[:, -1]    # 输出

# 构建LSTM模型
model = Sequential()
model.add(Embedding(input_dim=6, output_dim=4, input_length=2))  # 假设词汇量为6
model.add(LSTM(8))  # LSTM层，单元数为8
model.add(Dense(6, activation='softmax'))  # 输出层，词汇大小为6

# 编译模型
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 训练模型
model.fit(X, y, epochs=100, verbose=1)

6. 结论

长短期记忆网络有三种类型的门：输入门、遗忘门和输出门。
长短期记忆网络的隐藏层输出包括“隐状态”和“记忆元”。只有隐状态会传递到输出层，而记忆元完全属于内部信息。
长短期记忆网络可以缓解梯度消失和梯度爆炸。

上一篇：AI探索(四)检索增强RAG

下一篇：AI探索(六)卷积神经网络（LeNet）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯