一、范数定义

        一般常用范数来衡量向量,向量的Lp范数定义为:

范数深度学习 2.1范数_权重

         Lp范数示意图:

范数深度学习 2.1范数_最小化_02

        从图中可以看出,p的取值在 [0,1) 之间,范数不具有凸性,实际优化过程中,无法进行,一般会把L0范数转化为L1范数。

二、向量范数

1.L0向量范数

        L0范数是指向量x中的非0个数,是一种度量向量的稀疏性的表示方法。例如:x=[1,1,0,1],

2.L1向量范数

        L1范数是向量中元素的绝对值之和,也是一种度量向量的稀疏性的表示方法。

 

范数深度学习 2.1范数_机器学习_03

三、矩阵范数

1.矩阵的L1范数

        矩阵的L1范数定义为:所有矩阵列向量绝对值之和的最大值

范数深度学习 2.1范数_机器学习_04

2.矩阵的L2范数

        矩阵的L2范数定义为:

范数深度学习 2.1范数_权重_05

矩阵的最大特征值的开方

范数深度学习 2.1范数_权重_06

        其中λi为

范数深度学习 2.1范数_权重_05

的特征值。

3.矩阵的F范数

        矩阵的F范数定义为:矩阵元素绝对值的平方和再开方

范数深度学习 2.1范数_机器学习_08

4.矩阵的L2,1范数

        矩阵的L2,1范数定义为:矩阵A的每一行的L2范数之和

范数深度学习 2.1范数_机器学习_09

        在最小化问题中,只有每一行的L2范数都最小总问题才最小,而每一个函数取得最小的含义是,当行内尽可能多的元素为0的时候,约束才可以取到最小。

四、范数如何与正则化联系起来

        为了避免过拟合,我们常会给简单的函数加一个偏移,假如有两个函数都可以很好的拟合数据,我们会倾向于使用简单的那个,可以通过添加一个正则项来实现也就是范数,常用形式:

范数深度学习 2.1范数_机器学习_10

        其中λ是正则系数,表示想要正则化的程度。

五、为什么权重最小的范数可以实现正则化

        根据范数的定义,我们可以知道权重越大,范数越大,也就是说最小化范数可以得到一个相对简单的函数。总结来说,最小化权重的范数可以让过拟合函数变简单

        通过给我们最小化目标函数添加范数,可以促使拟合出权重较小的函数,带来了正则效应,提升了数据的泛化性。

六、L2,1范数特征选择

范数深度学习 2.1范数_最小化_11

        在特征选择中,通过稀疏化的特征选择矩阵来选取特征,相当于是一种线性变换。 

        一行代表一个数据点,每一列代表一个特征分量。

范数深度学习 2.1范数_权重_12