Pytorch学习记录(6)池化层的使用

1.池化层的定义以及池化层的原理:

池化操作(Pooling)是CNN中非常常见的一种操作,Pooling层是模仿人的视觉系统对数据进行降维,池化操作通常也叫做子采样(Subsampling)或降采样(Downsampling),在构建卷积神经网络时,往往会用在卷积层之后,通过池化来降低卷积层输出的特征维度,有效减少网络参数的同时还可以防止过拟合现象。

主要功能有以下几点:

  • 抑制噪声,降低信息冗余。
  • 提升模型的尺度不变性、旋转不变形。
  • 降低模型计算量。
  • 防止过拟合。

其中常用的池化操作,有maxpool与avgpool,还有随机池化、全局平均池化等其他非常多的池化操作

本文以maxpool与avgpool为例子进行着重介绍:




pytorch添加全局平均池化层 pytorch 池化_pytorch添加全局平均池化层


2.最大池化的实现:

以最大池化操作处理二维照片为例,数据集仍选择CIFAR10,代码如下:

import torch.nn as nn
import torch
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from torchvision import transforms


# 创建的单层最大池化层类
# Pytorch中模型的三要素 1.nn.Module
class MyPool(nn.Module):
    # Pytorch中模型的三要素 2.__init__()
    def __init__(self):
        super(MyPool, self).__init__()
        self.maxpool1 = torch.nn.MaxPool2d(kernel_size=3, stride=1, padding=0)

    # Pytorch中模型的三要素 3. forward()
    def forward(self, x):
        x = self.maxpool1(x)
        return x


# 将数据集图像从PIL格式转化为Tensor格式
tran_tensor = transforms.ToTensor()

# 使用CIFAR10数据集
# root数据集的位置,train是否是训练集,transform数据集,download是否下载数据集
dataset = torchvision.datasets.CIFAR10(root="./data", train=False, transform=tran_tensor, download=True)

# 加载数据集dataloader
# dataset数据集的位置,batch_size一次性加载的数据集图像,shuffle是否洗牌,num_workers单多线程,drop_last是否舍去最后总数据集个数除以batch_size个数的余数
dataloader = DataLoader(dataset=dataset, batch_size=64, shuffle=True, num_workers=0, drop_last=False)

# 创建Tensorboard.SummaryWriter模板
writer = SummaryWriter("logs")

step = 0
for data in dataloader:
    imgs, targets = data
    print("imgs.shape", imgs.shape)
    writer.add_images("maxpool_input", imgs, step)
    # 创建MyPool类
    mypool = MyPool()
    # 将图像喂给单层最大池化层的模型
    outputs = mypool(imgs)
    print("outputs.shape", outputs.shape)
    writer.add_images("maxpool_output", outputs, step)
    step = step + 1
writer.close()

通过tensorboard对于输入与输出进行查看:


pytorch添加全局平均池化层 pytorch 池化_数据集_02


pytorch添加全局平均池化层 pytorch 池化_pytorch_03


通过对比输入图像和输出图像可知,输出图像比输入图像模糊,有点像加了马赛克的感觉,但是仍然保留了图像的基本特征。

3.平均池化的实现:

以平均池化操作处理二维照片为例,数据集仍选择CIFAR10,代码如下:

import torch.nn as nn
import torch
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from torchvision import transforms


class MyPool(nn.Module):
    def __init__(self):
        super(MyPool, self).__init__()
        self.avgpool1 = torch.nn.AvgPool2d(kernel_size=3, stride=1, padding=0)

    def forward(self, x):
        x = self.avgpool1(x)
        return x


tran_tensor = transforms.ToTensor()
dataset = torchvision.datasets.CIFAR10(root="./data", train=False, transform=tran_tensor, download=True)
dataloader = DataLoader(dataset=dataset, batch_size=64, shuffle=True, num_workers=0, drop_last=False)

writer = SummaryWriter("logs")

step = 0
for data in dataloader:
    imgs, targets = data
    print("imgs.shape", imgs.shape)
    writer.add_images("avgpool_input", imgs, step)
    mypool = MyPool()
    outputs = mypool(imgs)
    print("outputs.shape", outputs.shape)
    writer.add_images("avgpool_output", outputs, step)
    step = step + 1
writer.close()

通过tensorboard对于输入与输出进行查看:


pytorch添加全局平均池化层 pytorch 池化_pytorch添加全局平均池化层_04


pytorch添加全局平均池化层 pytorch 池化_池化_05


通过对比输入图像和输出图像可知,输出图像比输入图像模糊,有点像加了马赛克的感觉,但是仍然保留了图像的基本特征。

4.池化层input和output尺寸信息:

在input和output中,要重点关注尺寸信息,对于输入和输出的尺寸信息计算关系如下所示,更多细节可参照PyTorch官网信息MaxPool2d — PyTorch 1.13 documentation


pytorch添加全局平均池化层 pytorch 池化_pytorch添加全局平均池化层_06


5.总结:

在本文中总结了神经网络的池化层的基本使用方法,并通过构建一个类Mypool介绍二维的最大池化MaxPool2d以及平均池化AvgPool2d的具体使用方法。