torch重置网络权重网络权重初始化为0

转载

编程艺术大师 2024-02-26 17:28:16

文章标签 torch重置网络权重 TensoFlow 深度学习参数初始化权重 文章分类 深度学习人工智能

一、写在前面
这里首先对上一篇内容的做一下更正与解释，上一篇的主要内容是使用2隐层的全连接网络来训练MNIST手写字体分类模型，但是由于一开始设计网络的时候，权重参数给定的值为0，于是在训练的过程中发现第一层隐层被设置为0的权重参数没有进行迭代更新，其它层级更新迭代的速度非常之慢，就误以为是单纯的由网络层级的加深导致的梯度消失问题，这里我们简单分析一下第一层隐层为0情况下的FP和BP过程。其中2隐层的节点数量都为64，且这里仅考虑SGD的情况。

二、FP过程
首先，输入层MNIST数据集的每张图片的像素值，我们输入一张图片，图片的大小为（1，784）然后到达第一层隐层，因为隐层的权重参数为0，则所有的输入值变为0，再加上偏置项0，然后经过sigmoid函数激活，然后每个输入值都会变为0.5，第一层隐层输出之后的形状为（1,64），且输出二维数据中的每个参数值都为0.5。
然后第一层的数据输出至第二层隐层，来自上一层0.5的输入乘以0依然是0，加上偏置项0后不变，然后再一次经过sigmoid函数激活，输出再一次的变为0.5，第二层隐层输出之后的形状为（1,64），同样的该层输出的二维数据中的每一个参数值为0.5。
之后便是由第二层隐层输出至输出层，来自上一层的0.5的输入乘以0依然为0，加上偏执项后不变，这里不需要激活，然后直接输出，输出结果为（1，10）的0张量。
最后，对输出的张量进行softmax转换，也就是将得分值转化为概率值，转换后的结果为（1，10）的数值为0.1的张量结果。然后通过交叉熵计算loss值（损失值），这里的损失值通过计算的结果为loss=3.321928094887362.

# _*_ coding:utf-8 _*_

import numpy as np

c=[0,0,0,0,0,0,0,0,0,0,0]
def softmax(list):
    return np.exp([list[i] for i in range(10)])/np.sum([np.exp(list[i]) for i in range(10)])
print(softmax(c))

a=[0,1,0,0,0,0,0,0,0,0]
b=softmax(c)
print(np.mean(-np.sum(a*np.log2(b))))

torch重置网络权重网络权重初始化为0_深度学习