Pytorch学习记录(6)池化层的使用
1.池化层的定义以及池化层的原理:
池化操作(Pooling)是CNN中非常常见的一种操作,Pooling层是模仿人的视觉系统对数据进行降维,池化操作通常也叫做子采样(Subsampling)或降采样(Downsampling),在构建卷积神经网络时,往往会用在卷积层之后,通过池化来降低卷积层输出的特征维度,有效减少网络参数的同时还可以防止过拟合现象。
主要功能有以下几点:
- 抑制噪声,降低信息冗余。
- 提升模型的尺度不变性、旋转不变形。
- 降低模型计算量。
- 防止过拟合。
其中常用的池化操作,有maxpool与avgpool,还有随机池化、全局平均池化等其他非常多的池化操作
本文以maxpool与avgpool为例子进行着重介绍:
2.最大池化的实现:
以最大池化操作处理二维照片为例,数据集仍选择CIFAR10,代码如下:
import torch.nn as nn
import torch
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from torchvision import transforms
# 创建的单层最大池化层类
# Pytorch中模型的三要素 1.nn.Module
class MyPool(nn.Module):
# Pytorch中模型的三要素 2.__init__()
def __init__(self):
super(MyPool, self).__init__()
self.maxpool1 = torch.nn.MaxPool2d(kernel_size=3, stride=1, padding=0)
# Pytorch中模型的三要素 3. forward()
def forward(self, x):
x = self.maxpool1(x)
return x
# 将数据集图像从PIL格式转化为Tensor格式
tran_tensor = transforms.ToTensor()
# 使用CIFAR10数据集
# root数据集的位置,train是否是训练集,transform数据集,download是否下载数据集
dataset = torchvision.datasets.CIFAR10(root="./data", train=False, transform=tran_tensor, download=True)
# 加载数据集dataloader
# dataset数据集的位置,batch_size一次性加载的数据集图像,shuffle是否洗牌,num_workers单多线程,drop_last是否舍去最后总数据集个数除以batch_size个数的余数
dataloader = DataLoader(dataset=dataset, batch_size=64, shuffle=True, num_workers=0, drop_last=False)
# 创建Tensorboard.SummaryWriter模板
writer = SummaryWriter("logs")
step = 0
for data in dataloader:
imgs, targets = data
print("imgs.shape", imgs.shape)
writer.add_images("maxpool_input", imgs, step)
# 创建MyPool类
mypool = MyPool()
# 将图像喂给单层最大池化层的模型
outputs = mypool(imgs)
print("outputs.shape", outputs.shape)
writer.add_images("maxpool_output", outputs, step)
step = step + 1
writer.close()
通过tensorboard对于输入与输出进行查看:
通过对比输入图像和输出图像可知,输出图像比输入图像模糊,有点像加了马赛克的感觉,但是仍然保留了图像的基本特征。
3.平均池化的实现:
以平均池化操作处理二维照片为例,数据集仍选择CIFAR10,代码如下:
import torch.nn as nn
import torch
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from torchvision import transforms
class MyPool(nn.Module):
def __init__(self):
super(MyPool, self).__init__()
self.avgpool1 = torch.nn.AvgPool2d(kernel_size=3, stride=1, padding=0)
def forward(self, x):
x = self.avgpool1(x)
return x
tran_tensor = transforms.ToTensor()
dataset = torchvision.datasets.CIFAR10(root="./data", train=False, transform=tran_tensor, download=True)
dataloader = DataLoader(dataset=dataset, batch_size=64, shuffle=True, num_workers=0, drop_last=False)
writer = SummaryWriter("logs")
step = 0
for data in dataloader:
imgs, targets = data
print("imgs.shape", imgs.shape)
writer.add_images("avgpool_input", imgs, step)
mypool = MyPool()
outputs = mypool(imgs)
print("outputs.shape", outputs.shape)
writer.add_images("avgpool_output", outputs, step)
step = step + 1
writer.close()
通过tensorboard对于输入与输出进行查看:
通过对比输入图像和输出图像可知,输出图像比输入图像模糊,有点像加了马赛克的感觉,但是仍然保留了图像的基本特征。
4.池化层input和output尺寸信息:
在input和output中,要重点关注尺寸信息,对于输入和输出的尺寸信息计算关系如下所示,更多细节可参照PyTorch官网信息MaxPool2d — PyTorch 1.13 documentation
5.总结:
在本文中总结了神经网络的池化层的基本使用方法,并通过构建一个类Mypool介绍二维的最大池化MaxPool2d以及平均池化AvgPool2d的具体使用方法。