导语

大多数深度学习模型(例如VGG,ResNet等)都需要正方形图像作为输入,通常像素大小为224x224。 输入的长宽必须相等是有原因的吗?还是可以建立一个100x200输入的卷积神经网络模型?更大的像素尺寸(例如512x512)会带来更多好处吗?

01

出于实用性的折衷

卷积神经网络不需要特定的像素尺寸即可正常运行。选择这些值是出于实用的原因:例如图像分辨率与参数数量和所需的训练集大小之间的折衷。毕竟,输入图像尺寸越大,模型的参数或者计算量也会随之上升。

02

方便获取ROI(感兴趣目标)

另外,如果数据集图片具有一系列不同的纵横比(比如肖像竖图、风景横图),考虑目标对象通常在中心,那么从中间采取方形作物是一个合理的方案。

03

图像分辨率的影响

当增加输入图像的大小时,还将增加网络处理该输入图像所需的噪声和数据变动。这可能意味着模型需要加入更多的网络层(比如卷积和池化),同时也可能意味着需要准备更多的训练数据。这将会增加训练模型所需的计算资源。当然如果可以接受这些代价,更高分辨率的图像一般会得到更好的模型。

关于是否需要更高分辨率的一个判断方法是:如果该任务领域的人类专家可以利用高分辨率图像来更好地完成任务,那么大尺寸图像输入是可取的。在回归系统中可能就是这种情况,比如在人脸识别系统中,高分辨率的图片保留更多的人脸特征,更容易对人进行判别,这类任务使用大图片是合适的。