1.
对应着图像中的CNN部分,其对输入进来的图片有尺寸要求,需要可以整除2的6次方。在进行特征提取后,利用长宽压缩了两次、三次、四次、五次的特征层来进行特征金字塔结构的构造。Mask-RCNN使用Resnet101作为主干特征提取网络
2.ResNet101有两个基本的块,分别名为Conv Block和Identity Block,其中Conv Block输入和输出的维度是不一样的,所以不能连续串联,它的作用是改变网络的维度;Identity Block输入维度和输出维度相同,可以串联,用于加深网络的。
结构左边为卷积,右边为残差边(short cut),没有残差边维度是不会改变的,所以Conv Block是会改变维度的,而Identity Block是不会改变维度的,
(resnet101整体结构(7,7)是卷积大小,stride为步长之后长宽被压缩为一半,即(512 X 512)
stride=(1,1)时,输出的图片大小与输入的图片大小一样。
3.有输入filter的值
identity_block有输入三个filter,分别是64 64 256功能:
作为平静结构
原本进行卷积时,通道数:
直接进行3x3卷积参数量比较大,利用平静结构先转1x1卷积压缩通道数,再转为3x3进行卷积之后再转回1x1卷积将通道数返回来,目的是为了减少中间网络的参数量,同时可以提高检测效果,加深网络深度
identity_blok:由平静结构和残差边组成
结构里只有通道数不同,resnet101很多重复的
4.长宽压缩了两次C2、三次C3、四次C4、五次C5的结果来进入特征金字塔结构进行融合,获得P2, P3 P4 P5,他们会作为RPN网络的有效特征层,
5.特征金字塔的构建: