BP神经网络流程 bp神经网络视频

转载

lemon 2023-07-29 11:27:24

文章标签 BP神经网络流程神经网络机器学习神经网络模型深度学习 文章分类 神经网络人工智能

文章目录

1、2层前馈神经网络模型

(1) 单个样本
(2) 多个样本时的矩阵表示

2、2层前馈NN的误差反向传播（BP）算法

(1) 单个样本
(2) 多个样本时的矩阵表示

3、BP多层前馈网络

本文主要参考文献如下：

1、吴恩达《深度学习》视频。

2、周志华. 《机器学习》3.2.清华大学出版社。

3、陈明等，《MATLAB神经网络原理与实例精解》，清华大学出版社。

这部分强烈推荐吴恩达的《深度学习》视频，讲解得非常浅显易懂。

前面介绍的Logistic回归，实际上就构成了一个神经元。如果有多个层，同时每个层有多个神经元，就形成了多层神经网络。我们这里所说的BP神经网络，实际上是多层前馈神经网络+误差反向传播算法，换句话说前者计算神经网络的输出，后者则根据估计输出与实际输出的误差，从后往前逆向更新每一层的参数。我们想从一个简单的两层BP网络入手，再推广到多层的情况。

1、2层前馈神经网络模型

$BP神经网络流程 bp神经网络视频_神经网络$ ， $BP神经网络流程 bp神经网络视频_神经网络模型_02$ ， $BP神经网络流程 bp神经网络视频_机器学习_03$ ，前馈NN模型如图1所示，我们从输出层向后，逐层推导其输出 $BP神经网络流程 bp神经网络视频_BP神经网络流程_04$ 。

BP神经网络流程 bp神经网络视频_神经网络模型_05

图1 多层前馈神经网络模型

(1) 单个样本

我们先来推导单个样本是BP网络的前馈输出。

输入层
$BP神经网络流程 bp神经网络视频_机器学习_06$
隐含层
$BP神经网络流程 bp神经网络视频_深度学习_07$ 其中，每一行对应一个神经元的加权系数。显然，每个神经元会进行两步运算，第一步是线性叠加
$BP神经网络流程 bp神经网络视频_机器学习_08$ 第二步为激活函数，因此隐含层的输出为
$BP神经网络流程 bp神经网络视频_深度学习_09$ 这里的 $BP神经网络流程 bp神经网络视频_机器学习_10$ 为激活函数，后面我们设其为sigmoid函数。
输出层
由于 $BP神经网络流程 bp神经网络视频_神经网络模型_11$ ，即只有一个输出，因此可以得到
$BP神经网络流程 bp神经网络视频_BP神经网络流程_12$ 同样需要两步处理，第一步
$BP神经网络流程 bp神经网络视频_神经网络_13$ 第二步输出为
$BP神经网络流程 bp神经网络视频_机器学习_14$ 因此，对于二分类问题，与Logistic回归类似，我们会将 $BP神经网络流程 bp神经网络视频_神经网络模型_15$ 作为 $BP神经网络流程 bp神经网络视频_神经网络模型_16$ 的概率进行判决。

(2) 多个样本时的矩阵表示

$BP神经网络流程 bp神经网络视频_神经网络模型_17$ 个样本输入的情况。

输入层
显然输入层不再是向量，而变成矩阵。
$BP神经网络流程 bp神经网络视频_机器学习_18$
隐含层
隐含层的参数不受样本数的影响，重写如下
$BP神经网络流程 bp神经网络视频_神经网络_19$ 因此，可以得到
$BP神经网络流程 bp神经网络视频_神经网络模型_20$ 则隐含层的输出为
$BP神经网络流程 bp神经网络视频_机器学习_21$
输出层
同样，参数矩阵与单样本时相同，即
$BP神经网络流程 bp神经网络视频_BP神经网络流程_22$ 可以得到
$BP神经网络流程 bp神经网络视频_深度学习_23$ 最后输出为
$BP神经网络流程 bp神经网络视频_神经网络模型_24$

2、2层前馈NN的误差反向传播（BP）算法

$BP神经网络流程 bp神经网络视频_BP神经网络流程_25$ 和 $BP神经网络流程 bp神经网络视频_深度学习_26$ 。我们继续考虑图1中的两层网络，同样分成单个样本和多个样本两种情况。

(1) 单个样本

$BP神经网络流程 bp神经网络视频_神经网络模型_27$ 。下面我们推导如何从右往左逐层更新参数 $BP神经网络流程 bp神经网络视频_BP神经网络流程_28$ 、 $BP神经网络流程 bp神经网络视频_神经网络模型_29$ 、 $BP神经网络流程 bp神经网络视频_神经网络模型_30$ 和 $BP神经网络流程 bp神经网络视频_BP神经网络流程_31$ 。当然这中间也会涉及到 $BP神经网络流程 bp神经网络视频_神经网络模型_32$ 、 $BP神经网络流程 bp神经网络视频_神经网络模型_33$ 、 $BP神经网络流程 bp神经网络视频_深度学习_34$ 、 $BP神经网络流程 bp神经网络视频_神经网络_35$ 的变化。

BP神经网络流程 bp神经网络视频_神经网络模型_36

图2 图1中2层NN的误差反向传播算法模型

代价函数
与Logistic回归类似，这里代价函数定义为对数似然函数，即
$BP神经网络流程 bp神经网络视频_BP神经网络流程_37$ 这里 $BP神经网络流程 bp神经网络视频_神经网络_38$ ，由于只有一个输出单元，因此为标量。
$BP神经网络流程 bp神经网络视频_神经网络_39$
由于 $BP神经网络流程 bp神经网络视频_神经网络_38$ 为标量，因此根据(21)有
$BP神经网络流程 bp神经网络视频_BP神经网络流程_41$
$BP神经网络流程 bp神经网络视频_神经网络模型_42$
进一步，我们知道 $BP神经网络流程 bp神经网络视频_机器学习_43$ ，这里考虑Sigmoid函数，即 $BP神经网络流程 bp神经网络视频_神经网络模型_44$ ，因此有
$BP神经网络流程 bp神经网络视频_神经网络_45$

事实上，一般来说输出层的激活函数都用Sigmoid函数。

由此，得到
$BP神经网络流程 bp神经网络视频_BP神经网络流程_46$

$BP神经网络流程 bp神经网络视频_神经网络_47$ 和 $BP神经网络流程 bp神经网络视频_神经网络模型_48$
再进一步，根据(6)，有
$BP神经网络流程 bp神经网络视频_深度学习_49$

$BP神经网络流程 bp神经网络视频_深度学习_50$ 因此，这里 $BP神经网络流程 bp神经网络视频_机器学习_51$ 是标量函数，对行向量 $BP神经网络流程 bp神经网络视频_神经网络_52$ 求偏导，仍为行向量，即
$BP神经网络流程 bp神经网络视频_神经网络_53$

因而，可以得到
$BP神经网络流程 bp神经网络视频_深度学习_54$

$BP神经网络流程 bp神经网络视频_神经网络_55$
根据(6)，有 $BP神经网络流程 bp神经网络视频_神经网络_56$ ，因此
$BP神经网络流程 bp神经网络视频_神经网络_57$

$BP神经网络流程 bp神经网络视频_深度学习_50$ 因此，这里 $BP神经网络流程 bp神经网络视频_机器学习_51$ 是标量函数，对列向量 $BP神经网络流程 bp神经网络视频_BP神经网络流程_60$ 求导，仍为列向量，即
$BP神经网络流程 bp神经网络视频_深度学习_61$

$BP神经网络流程 bp神经网络视频_深度学习_62$
根据(4.4)，由于 $BP神经网络流程 bp神经网络视频_深度学习_63$ ，若考虑Sigmoid函数，有
$BP神经网络流程 bp神经网络视频_BP神经网络流程_64$ 这里 $BP神经网络流程 bp神经网络视频_机器学习_65$ 表示逐项相乘。

注意这里 $BP神经网络流程 bp神经网络视频_神经网络模型_66$ ，因此是逐项把 $BP神经网络流程 bp神经网络视频_神经网络_67$ 求导，再代回向量中。上式考虑Sigmoid函数，注意乘法为逐项相乘，才能保证向量维度不变。

因此
$BP神经网络流程 bp神经网络视频_BP神经网络流程_68$

$BP神经网络流程 bp神经网络视频_机器学习_69$ 和 $BP神经网络流程 bp神经网络视频_深度学习_70$
根据（3)，即 $BP神经网络流程 bp神经网络视频_神经网络模型_71$

$BP神经网络流程 bp神经网络视频_机器学习_72$
似乎这里只取其中一个行向量，即
$BP神经网络流程 bp神经网络视频_深度学习_73$

有
$BP神经网络流程 bp神经网络视频_深度学习_74$

(2) 多个样本时的矩阵表示

$BP神经网络流程 bp神经网络视频_神经网络模型_17$ 个样本的情况。，如图3所示。

BP神经网络流程 bp神经网络视频_神经网络模型_76

图3 $m$个样本的2层前馈NN反向传播模型

代价函数
对于 $BP神经网络流程 bp神经网络视频_BP神经网络流程_77$ 个样本，我们定义代价函数为
$BP神经网络流程 bp神经网络视频_深度学习_78$ 我们把 $BP神经网络流程 bp神经网络视频_BP神经网络流程_77$ 个样本表示成矩阵形式，有
$BP神经网络流程 bp神经网络视频_机器学习_80$ 因此，可以得到
$BP神经网络流程 bp神经网络视频_深度学习_81$ 由于
$BP神经网络流程 bp神经网络视频_神经网络_82$ 这里考虑Sigmoid函数，即 $BP神经网络流程 bp神经网络视频_神经网络模型_83$ ，因此有
$BP神经网络流程 bp神经网络视频_BP神经网络流程_84$ 由此，得到
$BP神经网络流程 bp神经网络视频_神经网络模型_85$ 因此，有
$BP神经网络流程 bp神经网络视频_神经网络_86$
进一步，由于
$BP神经网络流程 bp神经网络视频_神经网络_87$ 因此
$BP神经网络流程 bp神经网络视频_神经网络模型_88$
同样，由于
$BP神经网络流程 bp神经网络视频_BP神经网络流程_89$ 因此
$BP神经网络流程 bp神经网络视频_深度学习_90$
进一步，由于
$BP神经网络流程 bp神经网络视频_BP神经网络流程_91$ 我们可以得到
$BP神经网络流程 bp神经网络视频_神经网络模型_92$ 故
$BP神经网络流程 bp神经网络视频_机器学习_93$

3、BP多层前馈网络

$BP神经网络流程 bp神经网络视频_神经网络_94$ 层NN，输入个数为 $BP神经网络流程 bp神经网络视频_机器学习_95$ ，第 $BP神经网络流程 bp神经网络视频_BP神经网络流程_96$ 层神经元个数为 $BP神经网络流程 bp神经网络视频_机器学习_97$ ，共有 $BP神经网络流程 bp神经网络视频_神经网络模型_17$ 个数据样本的情况。

$BP神经网络流程 bp神经网络视频_BP神经网络流程_96$ 层而言， $BP神经网络流程 bp神经网络视频_神经网络_100$ ，有
$BP神经网络流程 bp神经网络视频_深度学习_101$ 其中，每一行对应当前层每个神经元的加权系数，因此，可以得到
$BP神经网络流程 bp神经网络视频_神经网络模型_102$ 这里 $BP神经网络流程 bp神经网络视频_神经网络_103$ 当前层(第 $BP神经网络流程 bp神经网络视频_BP神经网络流程_96$ 层）的输出为
$BP神经网络流程 bp神经网络视频_BP神经网络流程_105$ 这里的 $BP神经网络流程 bp神经网络视频_机器学习_106$ 为第 $BP神经网络流程 bp神经网络视频_BP神经网络流程_96$ 层的激活函数。参数更新则按照下式进行：