CNN 卷积核参数_深度卷积神经网络


据官方消息,ICLR 2020会议将取消线下会议,并于4月25日-30日线上举办虚拟会议。本届会议共有 2594篇投稿,其中 687篇论文被接收(48篇oral论文,107篇spotlight论文和531篇poster论文),接收率为26.5%。

本文介绍发表在 ICLR 2020 上的论文《FSNet: Compression of Deep Convolutional Neural Networks by Filter Summary》。该工作针对深度卷积网络提出了一种全新的基于可微参数共享的模型压缩方法。

文 | Yingzhen Yang

编 | 贾伟


CNN 卷积核参数_深度卷积神经网络_02


论文链接:

https://openreview.net/forum?id=S1xtORNFwH

深度神经网络的压缩和加速一直是深度学习领域的热点问题。本文针对深度卷积网络提出了一种全新的基于可微分参数共享的模型压缩方法。

注意到卷积网络的参数主要集中于卷积核,新方法提出一种被称为卷积核概要(Filter Summary)的新型紧凑结构来表示同一个卷积层中的所有卷积核。


CNN 卷积核参数_CNN 卷积核参数_03


我们将基线网络的每一个卷积层的所有卷积核都用一个卷积核概要来替代,这样得到的网络被称为卷积核概要网络 (Filter Summary Net, or FSNet)。在卷积核概要网络中, 同一个卷积层的所有卷积核都被表示成卷积核概要中的互相重叠的张量。


CNN 卷积核参数_卷积网络如何让测试集准确率上升_04


CNN 卷积核参数_深度卷积神经网络_05


因为相邻卷积核在它们的重叠区域自然的共享参数,卷积核概要的参数量远小于基线网络对应层的所有卷积核的参数量,卷积核概要网络的参数总量也相应的远小于其基线网络的参数总量。卷积核概要还可以和参数量化方法结合,从而进一步提高压缩率。

我们在图像分类和目标检测这两个计算机视觉任务上展示卷积核概要网络的实验结果。

在图像分类任务中,在CIFAR-10和ImageNet数据集上卷积核概要网络的压缩率均超过了传统的卷积核剪枝方法。


CNN 卷积核参数_卷积网络如何让测试集准确率上升_06


在目标检测任务中,我们利用SSD300作为基线网络,并采用PASCAL Visual Object Classes (VOC) 2007/2012 作为训练集。配合参数量化方法,卷积核概要网络仅用0.68M参数量即在VOC 2007的测试集上达到了70.00% mAP。作为对照,MobileNetV2 SSD-Lite (Sandler et al., 2018) 需要3.46M参数量在相同的训练集和测试集上达到68.60% mAP。


CNN 卷积核参数_CNN 卷积核参数_07


我们进一步将卷积核概要网络和神经网络架构自动搜索的思路结合,提出可微分卷积核概要网络 (Differentiable FSNet, or DFSNet)。

我们利用最近的可微分神经网路架构搜索方法 (Differentiable Architecture Search, DARTS) 中的模型作为基线网络,在CIFAR-10数据的训练集上训练得到的可微分卷积核概要网络仅用1.88M参数量就在CIFAR-10测试集上达到了97.19%的分类准确率。相较于基线网络 (DARTS)的3.13M参数量和97.50%准确率,可微分卷积核概要网络在仅损失0.31%的准确率的代价下降低了40%的参数量。

随着神经网络架构自动搜索技术的发展,我们相信(可微分)卷积核概要网络将在未来发挥更大的作用。