lstm的权重矩阵怎么取

转载

AI智行者 2024-11-02 19:03:24

文章标签 lstm的权重矩阵怎么取 keras 权重图层词向量 文章分类 深度学习人工智能

为什么共享图层后，输出向量的形状还不一样

# 这一层可以输入一个矩阵，并返回一个 64 维的向量
shared_lstm = LSTM(64)

# 当我们重用相同的图层实例多次，图层的权重也会被重用 (它其实就是同一层)
encoded_a = shared_lstm(tweet_a)
encoded_b = shared_lstm(tweet_b)

这里重用了shared_lstm 层，但是如果要我们获取输出形状时，有文章指出图层的权重是一样的，但是输出形状不一样，这里不太理解

assert shared_lstm.get_output_at(0) == encoded_a
assert shared_lstm.get_output_at(1) == encoded_b

虽然我们可以通过shared_lstm 的方法来获取图层，但是我不太理解，我的理解是输出已经定义好了，所有的输入的输出都是一样的，写个代码可以了解一下。

a = Input(shape=(280, 128))
b = Input(shape=(250, 128))

lstm = LSTM(32)
encoded_a = lstm(a)
encoded_b = lstm(b)

print(lstm.get_input_shape_at(0))
print(lstm.get_input_shape_at(1))

print(lstm.get_output_shape_at(0))
print(lstm.get_output_shape_at(1))

输出结果：

(None, 280, 128)
(None, 250, 128)
(None, 32)
(None, 32)

其中如果a、b的input中，shape的后一维向量不一样就会报错，根据矩阵运算来说，后一维矩阵关系到后一个向量的行维数，如果不同，则两次输入得到的向量维数都是不一样的，这是我的理解，也不知道对不对，
疑问：

1、如果两次调用通一个层，同一个输入维数，用的是也是两个层，那么权重怎么共享？
2、对这个共享还是不太理解，我觉得共享就是权重也是共享的，这个权重对于同一个维数的输入来说应该是一样的。

Embedding层和Input层有啥区别

这两个层都是作为网络模型的第一层，当然模型也可以不用这个层，所以我就很奇怪，这两个层作为第一层的作用是什么？他们之间有什么区别？

Input层很多资料就说实例化一个keras张量，如下：

x = Input(shape=(32,))

明显很多layers的输出都是返回一个向量，

Embedding层：嵌入层将正整数（下标）转换为具有固定大小的向量，如[[4],[20]]->[[0.25,0.1],[0.6,-0.2]]
是不是很奇怪，这个怎么转换的？其实这里的embeding 是词向量化，但我不清楚是不是用的word2vec，但大概是用的skip-word算法来构建的，将输入作为语料集，一定长度的窗口来滑动，训练模型从而得到指定长度的输出词的相似性，输出的是相关性较高的词的概率，一共有窗口大小的长度，
如果输入数据不需要词的语义特征语义，简单使用Embedding层就可以得到一个对应的词向量矩阵，但如果需要语义特征，我们大可把训练好的词向量权重直接扔到Embedding层中即可
大家可以看下这个定义：

keras.layers.Embedding(input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None)

input_dim: int > 0。词汇表大小，即最大整数 index + 1，类似语料集分词后词汇大小。
output_dim: int >= 0。词向量的维度。
input_length: 输入序列的长度，当它是固定的时。如果你需要连接 Flatten 和 Dense 层，则这个参数是必须的（没有它，dense 层的输出尺寸就无法计算）

model = Sequential()
model.add(Embedding(4, 5, input_length=7))
model.compile('rmsprop','mse')
model.predict(np.array([[0,1,0,1,1,0,3]]))

输出结果：

array([[[-0.03462106,  0.01587335, -0.04886673,  0.01961641,
          0.01314208],
        [ 0.02410911, -0.03580334,  0.02348015,  0.02070605,
          0.01584761],
        [-0.03462106,  0.01587335, -0.04886673,  0.01961641,
          0.01314208],
        [ 0.02410911, -0.03580334,  0.02348015,  0.02070605,
          0.01584761],
        [ 0.02410911, -0.03580334,  0.02348015,  0.02070605,
          0.01584761],
        [-0.03462106,  0.01587335, -0.04886673,  0.01961641,
          0.01314208],
        [ 0.00639332, -0.03460374,  0.01854259,  0.02507687,
          0.03259133]]], dtype=float32)

参数分析：

4：3+1，一共有3个词汇，0、1、3
5：词向量的维度
7：输入的长度

具体可以看下参考博客。

dot()

全称是 tf.keras.backend.dot，表示两个矩阵相乘得到一个新的矩阵。

# dot product between tensors
    >>> x = K.placeholder(shape=(2, 3))
    >>> y = K.placeholder(shape=(3, 4))
    >>> xy = K.dot(x, y)
    >>> xy
    <tf.Tensor 'MatMul_9:0' shape=(2, 4) dtype=float32>

不过这些都是只有形状，也就是说并不知道这个矩阵的具体值是多少，可能跟我们线性代数里的具体的矩阵不太一样，毕竟这里只是定义这么一个相乘的操作。