在机器学习回归问题,以及训练神经网络过程中,通常需要对原始数据进行中心化(零均值化)与标准化(归一化)预处理。

目的
通过中心化和标准化处理,最终得到均值为0,标准差为1的服从标准正态分布的数据。
在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。

原理
中心化(又叫零均值化):是指变量减去它的均值。其实就是一个平移的过程,平移后所有数据的中心是(0,0)。
标准化(又叫归一化): 是指数值减去均值,再除以标准差(可以把有量纲量变为无量纲量)。

下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。

python中心化标准化 变量中心化和标准化_原始数据


其实,在不同的问题中,中心化和标准化有着不同的意义,比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。对数据进行中心化预处理,这样做的目的是要增加基向量的正交性(不是很明白这里)。标准化(归一化)优点及其方法

标准化(归一化)三个优点:

1)归一化后加快了梯度下降求最优解的速度;

如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快(理解:也就是步长走多走少方向总是对的,不会走偏)

python中心化标准化 变量中心化和标准化_python中心化标准化_02


2)归一化有可能提高精度。

归一化的另一好处是提高精度,这在涉及到一些距离计算的算法时效果显著,比如算法要计算欧氏距离,上图中x2的取值范围比较小,涉及到距离计算时其对结果的影响远比x1带来的小,所以这就会造成精度的损失。所以归一化很有必要,他可以让各个特征对结果做出的贡献相同。

3) 深度学习中数据归一化可以防止模型梯度爆炸。标准化(归一化)两种方法:

1)min-max标准化(Min-Max Normalization)

也称为离差标准化,是对原始数据的线性变换,使结果值映射到 [0 - 1] 之间。转换函数如下:

python中心化标准化 变量中心化和标准化_原始数据_03


其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

2)Z-score标准化(0-1标准化)方法

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据不一定符合标准正态分布,要看你的原始数据分布,如果原始数据分布是正态的话,那标准化后一定是标准正态分布,反之,则不是标准正态分布,比如原始数据是均匀分布,所以Z-score标准化不会改变原始数据的分布。

转化函数为:

python中心化标准化 变量中心化和标准化_数据_04


其中μ为所有样本数据的均值,σ为所有样本数据的标准差。