一、范数定义
一般常用范数来衡量向量,向量的Lp范数定义为:
Lp范数示意图:
从图中可以看出,p的取值在 [0,1) 之间,范数不具有凸性,实际优化过程中,无法进行,一般会把L0范数转化为L1范数。
二、向量范数
1.L0向量范数
L0范数是指向量x中的非0个数,是一种度量向量的稀疏性的表示方法。例如:x=[1,1,0,1],
2.L1向量范数
L1范数是向量中元素的绝对值之和,也是一种度量向量的稀疏性的表示方法。
三、矩阵范数
1.矩阵的L1范数
矩阵的L1范数定义为:所有矩阵列向量绝对值之和的最大值
2.矩阵的L2范数
矩阵的L2范数定义为:
矩阵的最大特征值的开方
其中λi为
的特征值。
3.矩阵的F范数
矩阵的F范数定义为:矩阵元素绝对值的平方和再开方
4.矩阵的L2,1范数
矩阵的L2,1范数定义为:矩阵A的每一行的L2范数之和
在最小化问题中,只有每一行的L2范数都最小总问题才最小,而每一个函数取得最小的含义是,当行内尽可能多的元素为0的时候,约束才可以取到最小。
四、范数如何与正则化联系起来
为了避免过拟合,我们常会给简单的函数加一个偏移,假如有两个函数都可以很好的拟合数据,我们会倾向于使用简单的那个,可以通过添加一个正则项来实现,也就是范数,常用形式:
其中λ是正则系数,表示想要正则化的程度。
五、为什么权重最小的范数可以实现正则化
根据范数的定义,我们可以知道权重越大,范数越大,也就是说最小化范数可以得到一个相对简单的函数。总结来说,最小化权重的范数可以让过拟合函数变简单。
通过给我们最小化目标函数添加范数,可以促使拟合出权重较小的函数,带来了正则效应,提升了数据的泛化性。
六、L2,1范数特征选择
在特征选择中,通过稀疏化的特征选择矩阵来选取特征,相当于是一种线性变换。
一行代表一个数据点,每一列代表一个特征分量。