DL神经网络神经网络glu

转载

imking 2023-11-13 11:38:31

文章标签 DL神经网络神经网络 cnn 深度学习卷积 文章分类 神经网络人工智能

卷积神经网络的本质是将全连接神经网络的全连接层替换为卷积层，所以下面我们从全连接神经网络开始。

一、全连接神经网络

1.神经元

单个神经元由输入；权重；激活函数；输出组成

DL神经网络神经网络glu_卷积

其中涉及计算的部件为：权重&激活函数

①权重

$z=\sum_{d=1}^Dw_dx_d+b=w^tx+b$

结合图例可以得，z为所有输入量的加权和，算式中的w为权重向量,b为偏置

②激活函数

名称	原型函数	变体	变体函数
Logistic函数	$\frac{1}{1+exp(-x)}$	Hard-Logistic函数
Tanh函数	$\frac{exp(x)-exp(-x)}{exp(x)+exp(-x)}$	Hard-Tanh函数
ReLU函数		带泄露的ReLU	$max(x,\gamma x)$
		带参数的ReLU
		ELU函数
		Softplus函数
Swish函数	$x\sigma(\beta x)$
GELU函数	$xP(X\leq x)$	Tanh近似	$0.5x(1+tanh(\sqrt{\frac{2}{\pi}})(x+0.044715x^3))$
GELU函数	$xP(X\leq x)$	Logistic近似	$x\sigma(1.702x)$
MaxOut单元	$\underset{k\in [1,K]}{max}(z_k)$

详细原型以及性质参见激活函数DLC

2.网络结构

前馈神经网络由输入层、隐藏层、输出层组成

DL神经网络神经网络glu_cnn_17

其信息通过不断迭代下列公式进行传递，以第

DL神经网络神经网络glu_深度学习_18

层为例 净输入（净活性值）：

$z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)}$

权重×上一层的输出+偏置输出（活性值）：

$a^{(l)}=f_l(z^{(l)})$

对净输入取激活函数合并为：

$z^{(l)}=W^{(l)}f_{l-1}(z^{(l-1)})+b^{(l)}$

或

$a^{(l)}=f_l(W^{(l)}a^{(l-1)}+b^{(l)})$

将整个网络视为复合函数

$\phi (x;W,b)$

，可得信号的传播如下

DL神经网络神经网络glu_DL神经网络_24

！！！通用近似定理：常见的连续非线性函数均可以前馈神经网络拟合（万能公式）

可以将输出以如下形式表示

$\hat{y}=g(\phi (x);\theta)$

DL神经网络神经网络glu_神经网络_26

为分类器，即最后一层的激活函数

3.参数学习

前馈神经网络的参数迭代方向与数据流动方向相反，其因此得名。

对样本(x,y)采用交叉熵损失函数

DL神经网络神经网络glu_cnn_27

！交叉熵损失函数：

$H(p,q)=-\sum_xp(x)logq(x)$

p为正确答案，q为预测值 对给定的训练集D=（

$x^{(n)},y^{(n)}$

）,其结构化风险函数为：

$R(W,b)=\frac{1}{N}\sum_{n=1}^NL(y^{(n)},\hat{y}^{(n)})+\frac{1}{2}||W||_F^2$

其中

$\frac{1}{2}||W||_F^2$

为模型的复杂度，

DL神经网络神经网络glu_神经网络_32

一般为正则化项，使用Frobenius范式

DL神经网络神经网络glu_神经网络_33

仅含权重

$w_{{ij}}$

，不含偏置b 通过计算

$\frac{\partial R(W,b)}{\partial W^{(l)}}$

和

$\frac{\partial R(W,b)}{\partial b^{(l)}}$

来获得需更新的参数，可以通过链式法则/反向传播算法来计算，但是一般用反向传播算法（链式法则算到死）

链式法则：就是分步求导

4.梯度计算

对第

DL神经网络神经网络glu_深度学习_18

层而言权重

$W^{(l)}$

的梯度为：

$\frac{\partial (y,\hat{y})}{\partial W^{(l)}}=\delta ^{(l)}(a^{(l-1)})^T$

偏置

$b^{(l)}$

的梯度为：

$\frac{\partial (y,\hat{y})}{\partial b^{(l)}}=\delta ^{(l)}$

①反向传播计算

大致分为如下3步

step1.前馈计算每一层的净输入

$z^{(l)}$

和激活值

$a^{(l)}$

，直至最后一层 step2.反向传播计算每层的误差

$\delta ^{(l)}$

step3.计算每一层参数的偏导，并更新相关参数

DL神经网络神经网络glu_神经网络_45

②自动梯度计算

以代码实现链式法则的迭代梯度计算（可以优先使用）

有以下实现方式：

Cat1.数值微分（导数定义）

${f(x)}'=\lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x))}{\Delta x} =\lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x-\Delta x))}{2\Delta x}$

Cat2.符号微分

Cat3.自动微分

令复合函数

$f(x;w,b)=\frac{1}{exp(-(wx+b))+1}$

，得出计算图；再将每一步对应的函数的和导数记录，需要计算时候，由链式法则连乘即可。如下

DL神经网络神经网络glu_卷积_48

DL神经网络神经网络glu_卷积_49

自动微分有以下模式：

1.前向模式：计算方向与信息传播的方向一致（前进时求导）

2.反向模式：等同于反向传播算法

3.静态图模式：编译时构建，程序运行时不再改变

优点：构建时可以进行优化，并行能力强

缺点：灵活性较差

4.动态图模式：程序运行时动态构建

优点：灵活性高

缺点：不易优化，难以并行计算

DL神经网络神经网络glu_神经网络_50

5.优化问题

①非突优化问题

②梯度消失问题

经过逐层递减，会使得网络越来越难以训练。简单的方法是使用导数较大的激活函数，如ReLU

更多细节详见神经网络（七）优化与正则化

二、卷积神经网络

CNN，是一种具备局部连接、权重共享的深层前馈神经网络。

解决了全连接神经网络的两个问题：

①参数太多：难以训练，且易过拟合

②局部特征不变：难以提取缩放、平移、旋转等不改变语义的信息

①局部连接 ②权重共享 ③汇聚

1.卷积

当前时刻产生的信息与之前时刻的延迟信息的叠加

一维卷积：

$y_t=\sum_{k=1}^Kw_kx_{t-k+1}$

二维卷积：

$y_{ij}=\sum_{u=1}^U\sum_{v=1}^Vw_{uv}x_{i-u+1,j-v+1}$

变种卷积：

名称	特征
空洞卷积	作用：增加输出单元的感受野在卷积核中插入空洞，变相的增加卷积核的大小（投射的时候增加空位）
转置/微步卷积	低维特征映射到高维特征（放大）减小步长，在输入上插入空洞（S=1/2）

详见卷积运算DLC

2.卷积层和汇聚层

使用卷积层替代全连接层：

$z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)}$

DL神经网络神经网络glu_DL神经网络_54

DL神经网络神经网络glu_cnn_55

DL神经网络神经网络glu_深度学习_56

卷积层具备两个重要特征：

局部连接：减少连接数量，由

$M_l\times M_{l-1}$

变为

$M_l\times K$

(K为卷积核大小) 权重共享：可理解为卷积核仅捕捉输入数据中的一种特定局部特征（若要捕获多个则需要多个卷积核），由于这种性质，卷积层仅有 K维权重

$w^{(l)}$

和一维偏置

$b^{(l)}$

，与参与运算的神经元数量无关。

①卷积层

一般卷积层由以下部件组成：输入特征映射组 + 输出特征映射组 + 卷积核

DL神经网络神经网络glu_神经网络_61

使用卷积核

$W^{p,1}$

...

$W^{p,D}$

分别对输入特征映射

DL神经网络神经网络glu_深度学习_64

...

DL神经网络神经网络glu_深度学习_65

进行卷积，再加上偏置b得到净输入

DL神经网络神经网络glu_cnn_66

,再过激活函数后得到输出特征映射

DL神经网络神经网络glu_深度学习_67

DL神经网络神经网络glu_卷积_68

DL神经网络神经网络glu_卷积_69

虽然卷积的连接方式为单连接，但输入和输出之间可以等效为全连接。

计算过程如图所示

DL神经网络神经网络glu_深度学习_70

②汇聚层

又称子采样层，用于进行特征选择，降低特征数量，从而减少超参数数量。常见的汇聚有以下几种：(对于区域

$R_{m,n}^d$

) 1.最大汇聚：

$y_{m,n}^d=\underset{i\in R_{m,n}^d}{max}xi$

(选取区域内活性的最大值)

DL神经网络神经网络glu_cnn_73

2.平均汇聚：

$y_{m,n}^d=\frac{1}{R_{m,n}^d}\sum_{i\in R_{m,n}^d}xi$

（选取区域内活性平均值）

主流神经网络中，汇聚层仅包含下采样操作；但早期神经网络中，还包含了非线性激活函数。

3.整体结构

一个经典CNN由卷积层、汇聚层、全连接层交叠而成，卷积层包含了卷积和激活函数

DL神经网络神经网络glu_深度学习_75

最后需要全连接层进行分类

现代卷积网络倾向于使用较小的卷积核（如3x3和1x1）并增加深度，且汇聚层的比例逐渐降低。

4.参数学习

CNN结构上类似于前馈神经网络，亦可通过反向传播算法来进行参数学习。仅需计算卷积核中参数的梯度即可

其损失函数

DL神经网络神经网络glu_DL神经网络_76

关于第

DL神经网络神经网络glu_深度学习_18

层可得偏导

$\frac{\partial l}{\partial Z^{(l,p)}}=\delta ^{(l,p)}\otimes X^{(l-1,d)}$

$\frac{\partial l}{\partial b^{(l,p)}}=\sum_{i,j}[\delta^{(l,p)}]_{i,j}$

反向传播算法（第

DL神经网络神经网络glu_深度学习_18

层的第p个特征映射的误差项

$\delta^{(l,p)}$

为） 汇聚层：

DL神经网络神经网络glu_神经网络_82

卷积层：

DL神经网络神经网络glu_神经网络_83

5.几种经典CNN

①LeNet-5

DL神经网络神经网络glu_cnn_84

②AlexNet

DL神经网络神经网络glu_深度学习_85

③Inception网络

由大量Inception v1模块堆叠而成

DL神经网络神经网络glu_神经网络_86

④残差网络

残差单元通过为非线性的卷积层增加直连边的方式提高信息传播效率，残差网络是将大量残差单元串联而成

目标函数h(x)由两部分组成：恒等函数

DL神经网络神经网络glu_卷积_87

和残差函数

DL神经网络神经网络glu_卷积_88

DL神经网络神经网络glu_神经网络_89

以非线性单元

$f(x;\theta)$

逼近残差函数

DL神经网络神经网络glu_卷积_88

，可得

DL神经网络神经网络glu_深度学习_92

典型残差单元结构

DL神经网络神经网络glu_深度学习_93

三、卷积神经网络的图解以及应用

1.图解CNN的运行

一般的卷积模块由：卷积、汇聚、激活组成，通过叠加可以构成卷积神经网络。

①卷积

卷积核一般以矩阵的形式表达，用以捕获某种特征；

例如下面三个矩阵分别可以识别左斜线、交叉和右斜线

DL神经网络神经网络glu_卷积_94

DL神经网络神经网络glu_深度学习_95

DL神经网络神经网络glu_卷积_96

通过卷积核与原图(一般会切分为小块)的计算（可以视为于相似度）

DL神经网络神经网络glu_神经网络_97

DL神经网络神经网络glu_卷积_94

的结果为3，再通过另一个矩阵存储这个结果

DL神经网络神经网络glu_神经网络_99

②汇聚/池化

使用极大汇聚/平均汇聚均可，用于压缩矩阵，提高计算效率的同时可以避免过拟合，从而提高网络的泛化能力

DL神经网络神经网络glu_深度学习_100

如图矩阵最终结果为9

③激活

一般使用ReLU(max(x,0))激活函数，以避免梯度消失的问题

2.残差网络的Python实现

DL神经网络神经网络glu_深度学习_93

①引入数据包(Tensorflow)

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers,Sequential

②实现残差单元

class BasicBlock(layers.Layer):    --继承自layers.Layer
    --初始化
    def__init__(self,filter_num,strides=1):    --自指针，通道数，步长
        super(BasicBlock,self).__init__()

        self.conv1=layers.Conv2D(filter_num,(3,3),strides=strides,padding='same')--卷积层
            --通道数，卷积核尺寸，步长，补0
        self.bn1=layers.BatchNormalization()    --偏置
        self.relu=layers.Activation('relu')    --激活函数

        self.con2=layers.Conv2D(filter_num,(3,3),strides=1,padding='same')--不再进行下采样
        self.bn2=layers.BatchNormalization()

        if stride !=1 :    --当步长不为1时，需要对短接边进行转换
            self.downsample=Sequential()    --初始化短接边的容器
            self.downsample.add(layer.conv2D(filter_num,(1,1),strides))
                --在容器中添加一个1x1的矩阵，用于匹配段阶边与净输出
        else:
            self.downsample=lambda x:x

    --前向传播
    def call(self,inputs,training=None):
        out=self.conv1(inputs)
        out=self.bn1(out)
        out=self.relu(out)    --激活函数

        out=self.conv2(out)
        out=self.bn2(out)

        identity=self.downsample(inputs)    --短接边
        
        output=layers.add([out,identity])    --将短接边的举证与净输出矩阵求和
        output=tf.nn.relu(output)    --激活函数

        return output

③实现残差网络

class ResNet(keras.Model):    --继承自keras.Model
    --构建残差网络
    def__init__(self,layer_dims,num_classes=100): #[2,2,2,2]    --残差单元的，全连接层种类
        super(ResNet,self).__init__()

        self.stem=Sequential([layers.Conv2D(64,(3,3),strides=(1,1)),    --初始化预处理层
            layers.BatchNormalization(),
            layers.Activation('relu'),
            layers.MaxPool2D(pool_size=(2,2),strides=(1,1),padding='same')])

        --布置残差网络内部,一般而言通道数量按块倍增
        self.layer1=self.build_resblock(64,layers_dims[0])
        self.layer2=self.build_resblock(128,layers_dims[1],strides=2)--后续的三组都可以降维
        self.layer3=self.build_resblock(256,layers_dims[2],strides=2)
        self.layer4=self.build_resblock(512,layers_dims[3],strides=2)

        #output:[b,512,h,w],
        self.avgpool=layers.GlobalAveragePooling2D()--自适应限缩
        self.fc=layers.Dense(num_classes)    --用于分类的全连接层

    --实现前向传递
    def call(self,inputs,training=None):
        x=self.stem(iputs)    --预处理层

        x=self.layer1(inputs)    --残差网络计算
        x=self.layer2(inputs)
        x=self.layer3(inputs)
        x=self.layer4(inputs)

        x=self.avgpool(x)    --全连接层分类
        x=self.fc(x)

        return x

    --构建残差模块（由多个残差单元堆叠而成，仅第一个残差单元允许下采样）
    def build_resblock(self,filter_num,blocks,strides=1):--通道数，层数，步长
        res_blocks=Sequential()
        res_blocks.add(BasicBlock(filter_num,strides))    --添加一个残差模块

        for_ in range(1,blocks):
            res_blocks.add(BasicBlock(filter_num,strides=1))    --后续残差模块不允许下采样

        return res_blocks

    def resnet18():    --18层的残差网络配置
        return ResNet([2,2,2,2])

    def resnet34():    --34层的残差网络配置
        return ResNet([3,4,6,3])

④应用

model=resnet18()    --获取18层的参数
model.build(input_shape=(Node,32,32,3))
optimizer=optimizers.Adam(lr=le-3)

--训练
for epoch in range(50):
    for step,(x,y) in enumerate(train_db):
        with tf.GradientTape() as tape:
            logits=model(x)
            y_onehot=tf.one_hot(y,depth=100)
            loss=tf.losses.ccatrgorical_crossentropy(y_onehot,logits,from_logits=True)
            loss=tf.reduce_mean(loss)

        grads=tape.gradient(loss,model.trainble_variables)    --梯度
        optimizer.apply_gradients(zip(grads,model.trainable_variables))

--测试
total_num=0
total_correct=0
for x,y in test_db

    logits=model(x)
    prob=tf.nn.softmax(logits,axis=i)
    pred=tf.argmax(prob,axis=1)
    pred=tf.cast(pred,dtype=tf.int32)

    correct=tf.cast(tf.equal(pred,y),dtype=tf.int32)
    correct=tf.reduce_sum(correct)

    total_num+=x.shape[0]
    total_correct+=int(correct)

    acc=total_correct / total_num
    print(epoch,'acc:',acc)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：系统架构设计师论文论软件可靠性设计与应用软件可靠性设计方法

下一篇：java 注册servlet java 注册中心有哪些

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯