AIGC探索之 NiN:深入神经网络的应用与实现_GAP

引言

深度学习模型的设计直接影响了生成内容的质量和效率。传统的卷积神经网络(CNN)通过卷积和池化层逐步提取特征,但随着任务复杂度的增加,单一的线性层难以有效捕获高阶特征。NiN通过在卷积网络中引入全局平均池化和逐层的全连接网络,以更有效的方式提取数据的非线性特征,从而提升了模型的表达能力。

1. 介绍


前面文章讲到的LeNetAlexNetVGG都有一个共同的设计模式:通过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。 或者,可以想象在这个过程的早期使用全连接层。然而,如果使用了全连接层,可能会完全放弃表征的空间结构。 网络中的网络(NiN)提供了一个非常简单的解决方案:在每个像素的通道上分别使用多层感知机

参考文献: Lin, M., Chen, Q., & Yan, S. (2013). Network in network. arXiv preprint arXiv:1312.4400.

2. NiN概述


NiN(Network in Network) 由Min Lin等人于2013年提出。其核心思想是在卷积层之后加入多层感知机(MLP),实现更复杂的特征表达能力。NiN在保持模型计算效率的同时,增强了非线性建模能力,使其在多个任务上都表现出色。

2.1 NiN的架构

NiN主要由以下三部分组成:

  • MLPConv层:在传统的卷积操作后,增加一个逐点卷积,即1x1卷积。这样每个像素点可以通过MLP进行非线性映射。
  • 全局平均池化层(Global Average Pooling):替代了传统的全连接层,减少了参数量,同时避免了过拟合。
  • 分类器:通过Softmax层进行分类输出。

AIGC探索之 NiN:深入神经网络的应用与实现_卷积_02

2.2 NiN相较于传统CNN的优势

  • 参数减少:传统CNN使用大量的全连接层,容易导致过拟合。而NiN使用全局平均池化,显著减少了参数数量。
  • 非线性特征提取:1x1卷积允许模型在每个像素点进行非线性处理,大大增强了特征表达能力。
  • 防止过拟合:通过减少全连接层的使用以及参数量,NiN能够在训练小数据集时表现更好。

AIGC探索之 NiN:深入神经网络的应用与实现_全连接_03

3. NiN的技术原理解析


3.1 MLPConv层

MLPConv层的关键在于1x1卷积,其主要功能是对卷积层输出的特征图进行逐像素的全连接。这种设计使得网络能够学习到更加丰富和复杂的特征。

设输入特征图为 AIGC探索之 NiN:深入神经网络的应用与实现_全连接_04,其中:

  • AIGC探索之 NiN:深入神经网络的应用与实现_GAP_05 为输入通道数,
  • AIGC探索之 NiN:深入神经网络的应用与实现_全连接_06AIGC探索之 NiN:深入神经网络的应用与实现_GAP_07 分别为特征图的高度和宽度。

1x1卷积操作的输出可以表示为:

AIGC探索之 NiN:深入神经网络的应用与实现_GAP_08

对于每个输出通道 AIGC探索之 NiN:深入神经网络的应用与实现_全连接_09

  • AIGC探索之 NiN:深入神经网络的应用与实现_GAP_10 是1x1卷积核的权重,
  • AIGC探索之 NiN:深入神经网络的应用与实现_GAP_11 是偏置项。

1x1卷积的作用是将输入的每个像素与所有输入通道的权重相乘,并将结果相加,从而实现逐像素的全连接。这可以理解为在空间上对每个像素点进行全连接,而不是在通道上。

3.2 全局平均池化(GAP)

全局平均池化层(Global Average Pooling)通过计算每个特征图的平均值来替代传统的全连接层。这一操作使得每个特征图都汇聚为一个单一的数值,从而简化了模型并减少了过拟合的风险。

假设卷积层的输出为 AIGC探索之 NiN:深入神经网络的应用与实现_全连接_12,其中:

  • AIGC探索之 NiN:深入神经网络的应用与实现_卷积_13 为通道数,
  • AIGC探索之 NiN:深入神经网络的应用与实现_全连接_06AIGC探索之 NiN:深入神经网络的应用与实现_GAP_07 为特征图的高度和宽度。

GAP的输出 AIGC探索之 NiN:深入神经网络的应用与实现_GAP_16 的计算过程为:

AIGC探索之 NiN:深入神经网络的应用与实现_全连接_17

对于每个通道 AIGC探索之 NiN:深入神经网络的应用与实现_卷积_18

  • AIGC探索之 NiN:深入神经网络的应用与实现_卷积_19 是对应通道的输出,表示该通道中所有像素的平均值。

因此,GAP的最终输出形式为:

AIGC探索之 NiN:深入神经网络的应用与实现_GAP_20

4. NiN在AIGC中的应用


4.1 图像生成

NiN模型能够通过其强大的特征提取能力,为生成模型(如GANs)提供更加精细的图像特征。这对于高分辨率图像生成和多样性生成内容任务尤为重要。

4.2 文本生成

尽管NiN主要用于图像处理,其结构也可以在某些AIGC文本生成任务中作为特征提取的有效模块。通过调整网络结构,NiN能够帮助生成高质量的文本内容。

5. NiN代码实现


import torch
import torch.nn as nn
import torch.nn.functional as F

class NiNBlock(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, stride, padding):
        super(NiNBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=1)
        self.conv3 = nn.Conv2d(out_channels, out_channels, kernel_size=1)

    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(x))
        x = F.relu(self.conv3(x))
        return x

class NiN(nn.Module):
    def __init__(self):
        super(NiN, self).__init__()
        self.block1 = NiNBlock(3, 192, kernel_size=5, stride=1, padding=2)
        self.block2 = NiNBlock(192, 160, kernel_size=5, stride=1, padding=2)
        self.block3 = NiNBlock(160, 96, kernel_size=5, stride=1, padding=2)
        self.pool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(96, 10)  # 10 classes for classification

    def forward(self, x):
        x = self.block1(x)
        x = self.block2(x)
        x = self.block3(x)
        x = self.pool(x)
        x = torch.flatten(x, 1)
        x = self.fc(x)
        return x

# 模型实例化与简单训练
model = NiN()
print(model)

# 假设我们有一个数据加载器
# optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
# criterion = nn.CrossEntropyLoss()

# # 简单的训练循环
# for epoch in range(10):
#     for inputs, targets in dataloader:
#         optimizer.zero_grad()
#         outputs = model(inputs)
#         loss = criterion(outputs, targets)
#         loss.backward()
#         optimizer.step()

6. 总结


AIGC探索之 NiN:深入神经网络的应用与实现_GAP_21

① 在全局平均池化层(GAP)被提出之前,常用的方式是将feature map直接拉平成一维向量,但是GAP不同,是将每个通道的二维图像做平均,最后也就是每个通道对应一个均值。

② 假设卷积层的最后输出是h × w × d 的三维特征图,具体大小为6 × 6 × 3,经过GAP转换后,变成了大小为 1 × 1 × 3 的输出值,也就是每一层 h × w 会被平均化成一个值,如下图所示。

③ GPA优势:

抑制过拟合。直接拉平做全连接层的方式依然保留了大量的空间信息,假设feature map是32个通道的10 * 10图像,那么拉平就得到了32 * 10 * 10的向量,如果是最后一层是对应两类标签,那么这一层就需要3200 * 2的权重矩阵,而GAP不同,将空间上的信息直接用均值代替,32个通道GAP之后得到的向量都是32的向量,那么最后一层只需要32 * 2的权重矩阵。相比之下GAP网络参数会更少,而全连接更容易在大量保留下来的空间信息上面过拟合。

7. 最后


Network in Network (NiN) 模型通过引入1x1卷积和全局平均池化,极大地提升了卷积神经网络的特征提取能力和效率。NiN在AIGC领域中的应用前景广阔,尤其是在需要处理复杂数据模式的任务中,其优势显而易见。未来,NiN有望与其他生成模型(如GAN、VAE)结合,推动AIGC生成能力的进一步提升。


参考:

网络中的网络(NiN)