反向传播算法

  • 引言
  • 深刻理解反向传播算法
  • 示例
  • 输出部分结果


引言

在上篇文章中,谈了对梯度下降算法的见解,对于单层神经网络,我们很容易计算出损失对权重的导数。而对于一个复杂的神经网络,如下图所示,我们很难求出损失函数对权重的导数。梯度下降法是寻找到最优点,即找到使损失函数最小值的点,从而达到良好优化效果。而反向传播算法就是求最终的输出,也即损失函数最小值对前面各个参数的偏导的过程。一个神经网络训练过程,它包括了前向传播、反向传播、以及更新损失参数三个基本部分。

PYTORCH反向计算如何图优化 pytorch反向传播原理_深度学习

深刻理解反向传播算法

在实践中,神经网络包含许多连接在一起的张量运算,每个运算都有简单的、已知的导数。

对于这种连接在一起、多层嵌套的函数链,我们可以通过链式求导法则应用于神经网络梯度值的计算,亦即在神经网络模型中反向传播算法的作用就是要求出这个梯度值,从而后续用梯度下降去更新模型参数。反向传播算法从模型的输出层开始,利用函数求导的链式法则,逐层从后向前求出模型梯度。

PYTORCH反向计算如何图优化 pytorch反向传播原理_PYTORCH反向计算如何图优化_02

这是一个二层的链式求导法则。而事实上,我们的x也可能是某个二层多层的神经网络的输出,一层层嵌套。上面只是展示了一个简单的二层链式求导法则的示例。

示例

代码如下:

import torch

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

w = torch.Tensor([1.0])
w.requires_grad = True  # 默认的Tensor是不需要计算梯度的,此处定义为需计算梯度


# 定义模型
def forward(x):
    return x * w


# 定义损失函数,loss = (y' - y)²
def loss(x, y):
    y_pired = forward(x)
    return (y - y_pired) ** 2


print('predict(before training)', 4, forward(4).item())  #  .item()转换数据类型,

for epoh in range(100):
    for x, y in zip(x_data, y_data):
        l = loss(x, y)  #前馈
        l.backward()    #反馈
        print('\tgrad', x, y, w.grad.item())
        w.data = w.data - 0.01 * w.grad.data

        w.grad.zero_()  # 反向传播的梯度清零

    print('process', epoh, l.item())

print('predict(after tarining)', 4, forward(4).item())

输出部分结果

PYTORCH反向计算如何图优化 pytorch反向传播原理_反向传播算法_03