1 前备知识
在这里简略讲一下使用方法,具体原理和推导公式不展开讲了。
1.1 拉格朗日乘子法
拉格朗日乘子法就是求函数
在约束条件
下的极值的方法。其主要思想是将约束条件函数与原函数联立,从而求出使原函数取得极值的各个变量的解。
首先看下面的例题:
第一步将每个约束条件都分配一个乘子,在将目标函数和所有的约束函数相加,得到函数:
其中每个约束条件的右边都是0,所以
.
第二步对求偏导:
令偏导数等于0,用表示
:
将所得代入约束条件
中,求得
:
得到的值,代入上式得到
的最优解。
1.2 KKT条件
我们可以发现,1.1讲的拉格朗日乘子法中,它的约束条件都是等式,那么对于约束条件是不等式的应该怎么办呢?
对于一个新的极值问题:
为了统一,首先将约束条件都转化为小于号:
依旧是分配乘子并求和:
其中是不等式约束条件,
是等式约束条件。(此例中没有等式)
KKT条件就是最优值,KKT条件为:
对每个
求偏导等于
;
;
可以发现,将3、4、5合并就是:
对于上例题,接下来的操作就是:
一、对每个
求偏导等于
求出
的表达式。
二、将的表达式代入
,求出
。
三、将代回,求出
。
2 SVM
2.1 简介
支持向量机(support vector machines, SVM)是一种二分类问题模型。
它的目标是找到一个尽可能正确分类,且“确信度”尽可能高的超平面。
其中“确信度”指的是:正确分类的样本点,距离超平面越远,该样本点的确信度就越高。(我对这个样本点分类正确的信任程度)
换而言之,就是该超平面的鲁棒性要好,泛化能力要强。
对于线性可分支持向量机,分类超平面为:
相应的分类决策函数
称为线性可分支持向量机。
2.2 函数间隔与几何间隔
函数间隔和几何间隔是用来描述计算“确信度”的。
2.1.1 函数间隔
在超平面确定的情况下,
的值可以作为衡量样本点
确信度的一个指标,
就是该样本点的函数间隔。
定义(函数间隔):对于给定的训练数据集和超平面
,定义超平面
关于样本点
的函数间隔为:
超平面关于样本点
的函数间隔为所有样本点函数间隔的最小值:
函数间隔虽然可以表示预测的确信度,但是当和
成比例增加时,超平面没有改变,但函数间隔却成倍增加。
例如超平面与
等价,但是
。
为了解决这个问题,引入了几何间隔。
2.2.2 几何间隔
在二维坐标系中,点是样本,线是分离超平面,那么点到线的距离就是几何间隔。
点到线的距离公式:
扩展到多维坐标系:
其中为L2范数。
我们记
同样:
2.2.3 间隔最大化
回想一下,我们SVM的目标是什么来着?
是寻找一个“确信度”尽可能高的超平面,也就是一个几何间隔尽可能大的超平面。
那么我们可以得到一个约束最优化问题:
使几何间隔最大化的和
,并且满足约束条件所有样本的几何间隔大于
.
又因为函数间隔和几何间隔的关系:
上述问题可以化为:
函数间隔的取值并不影响最优化问题的解,则可以令
。
这个其实也好理解,我们看上式,
和
就是两个参数,令
,就相当于将
和
,对于该约束最优化问题的解没有任何影响。就好比解方程时等式两边同时除以一个数。
另外,最大化和最小化
是等价的。
所以上面的问题就变成了:
这就是SVM的基本型(对于线性可分问题),后面主要就是这个约束问题的求解。
2.3 对偶问题
我们可以发现上面的约束最优化问题本身就是一个凸二次规划问题,所以我们可以使用更高效的方法去求解,也就是使用拉格朗日乘子法得到其“对偶问题”。
首先稍微做一下调整:
定义拉格朗日乘子,根据
得到:
令对
和
求偏导等于零,得:
虽然把给消去了,但是并没有影响,后续过程中原式的
也会消去。
将代入
中,即可用
将
和
替换掉,得到对偶问题:
另外,需要注意,这里的约束问题需要用到KKT条件:
对
和
求偏导等于
;
; (这里没有等式约束,可以忽略)
整理一下,可简化为两种情况:
- 当
时,
- 当
时,
(为松弛变量,下面会讲。)
到这里,只要解出,就可以得到
和
,从而得到分离超平面。
那么如何去求解呢?一种比较高效的方法就是SMO算法。
在此之前需要先讲一下松弛变量和核函数。
2.4 松弛变量和核函数
2.4.1 线性SVM与松弛变量
在此之前所讲的都是数据集时线性可分的,但是还有的数据集是线性不可分的,这两种情况合起来就是线性SVM。如下图,线性不可分的数据集:
线性不可分意味着某些样本点不能满足函数间隔大于等于1的约束条件。为了解决这个问题,给每一个样本点
引进一个松弛变量
,使函数间隔加上松弛变量大于等于1。这样,约束条件变为:
同时,对每个松弛变量,需要支付一个代价
,则目标函数就由原来的
变为:
其中称为惩罚参数,用来控制松弛变量的代价高低。
所以对于线性不可分的SVM的基本模型就是:
2.4.2 非线性SVM与核函数
2.4.2.1 核技巧和核函数
简单说就是,对于非线性问题,可以将样本通过一个从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。
如下图,对于异或问题,就是一个非线性问题,原始问题是在一个二维空间中,当我们将样本特征空间做一个映射,提升到三维空间中,就能容易找到一个分离超平面。
非线性SVM的基本模型为:
其对偶问题为:
特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 ,它恰好等于在高维空间中这个内积,即
那么支持向量机就不用计算复杂的非线性变换,而由这个函数
直接得到非线性变换的内积,使大大简化了计算。这样的函数
称为核函数。
则该对偶问题可以改写为:
2.4.2.2 常用的核函数
3 SMO算法
序列最小最优化(sequential minimal optimization,SMO)算法,可以高效地实现支持向量机问题。SMO算法在这里用来更新优化
的值。
算法的基本思想就是,每次挑选出两个变量(假设为和
),固定其它的变量(
),每次只更新
和
,循环迭代多次,尽可能接近最优解。
SMO算法其实就做了两件事:
- 变量的挑选方法:挑选出
和
。
- 两个变量二次规划的求解方法:更新
和
。
3.1 两个变量二次规划的求解方法
假设选择的两个变量为和
,其它变量
是固定的,则SMO的最优化问题的子问题可以写成:
其中是常数,目标函数中省略了不含
的常数项。
接下来,我们从约束条件入手:
我们假设考虑为变量的最优化问题。
假设问题的初始可行解为和
,更新后的解为
和
,并记未经剪辑时
的最优解为
。(未经剪辑就是不一定满足
)
我们先求,再对其约束得到
。
我们假设最优值必须满足:
如上图所示,分两种情况讨论,L、H的值就是线段和边界相交的点,可以求出:
:
得到后,我们先放一放,先去求
的值:
记
为预测值,
为预测值与真实值之差。
则:
其中,
再求:
根据
得到:
于是得到新的和
。
3.2 变量的挑选方法
SMO算法要挑选的两个变量,一个()是违反KKT条件的,另一个(
)的选择标准是希望能使
有足够大的变化。
3.2.1 第一个变量的选择
SMO称选择第一个变量的过程称为外层循环。外层循环在训练样本中选取违反KKT条件的样本点,并将其对应的作为第一个变量。
KKT条件:
- 当
时,
- 当
时,
一般把松弛变量统一为一个量,记为。则:
当时,
在检验选取过程中,外层循环首先遍历符合条件的,再遍历符合
条件的,检验他们是否满足KKT条件,将第一个不满足KKT条件的的作为
。
3.2.2 第二个变量的选择
SMO称选择第二个变量的过程称为内层循环。我们的选择标准是希望能使有足够大的变化。
根据公式:
可知是依赖于
的,所以:
- 当
时,选择所有样本点中最小的
作为
;
- 当
时,选择所有样本点中最大的
作为
;
同时将挑选出的相对应的
作为第二个变量(
)
3.2.3 计算并更新阈值
和差值
4 Python代码实现SVM
import numpy as np
class SVM:
def init_args(self, max_iter, features, labels):
self.max_iter = max_iter
self.m, self.n = features.shape
self.X = features
self.Y = labels
self.b = 0.0
self.alpha = np.ones(self.m)
self.E = [self.calc_E(i) for i in range(self.m)]
self.C = 1.0
# 核函数,这里选用线性核
def kernel(self, x1, x2):
sum = 0
for i in range(self.n):
sum += x1[i]*x2[i]
return sum
# 计算预测值
def calc_g(self, i):
g = self.b
for j in range(self.m):
g += self.alpha[j]*self.Y[j]*self.kernel(self.X[i], self.X[j])
return g
# 计算预测值与真实值的差值
def calc_E(self, i):
return self.calc_g(i) - self.Y[i]
# 判断是否满足KKT条件
def judge_KKT(self, i):
if self.alpha[i]==0 and self.Y[i]*self.calc_g(i)>=1:
return True
elif 0<self.alpha[i]<self.C and self.Y[i]*self.calc_g(i)==1:
return True
return False
def get_alpha(self):
# 外层循环,找第一个变量,遍历样本点,找到第一个不满足KKT条件的
for i in range(self.m):
if self.judge_KKT(i) == False:
# 内层循环,找第二个变量
E1 = self.E[i]
if E1 >= 0:
j = min(range(self.m), key=lambda index : self.E[index])
else:
j = max(range(self.m), key=lambda index : self.E[index])
return i, j
def train(self, max_iter, features, labels):
# 迭代训练
self.init_args(max_iter, features, labels)
for i in range(self.max_iter):
# 选择 alpha1和alpha1
i1, i2 = self.get_alpha()
# 边界
if self.Y[i1] == self.Y[i2]:
L = max(0, self.alpha[i2]+self.alpha[i1]-self.C)
H = min(self.C, self.alpha[i2]+self.alpha[i1])
else:
L = max(0, self.alpha[i2]-self.alpha[i1])
H = min(self.C, self.alpha[i2]+self.alpha[i1]+self.C)
eta = self.kernel(self.X[i1], self.X[i1]) + self.kernel(self.X[i2], self.X[i2]) - 2*self.kernel(self.X[i1], self.X[i2])
alpha2_new_unc = self.alpha[i2] + self.Y[i2] * (self.E[i1] - self.E[i2]) / eta
if alpha2_new_unc > H:
alpha2_new = H
elif L <= alpha2_new_unc <= H:
alpha2_new = alpha2_new_unc
elif alpha2_new_unc < L:
alpha2_new = L
alpha1_new = self.alpha[i1] + self.Y[i1] * self.Y[i2] * (self.alpha[i2] - alpha2_new)
b1_new = -self.E[i1] - self.Y[i1] * self.kernel(self.X[i1], self.X[i1]) * (alpha1_new-self.alpha[i1]) - self.Y[i2] * self.kernel(self.X[i2], self.X[i1]) * (alpha2_new-self.alpha[i2])+ self.b
b2_new = -self.E[i2] - self.Y[i1] * self.kernel(self.X[i1], self.X[i2]) * (alpha1_new-self.alpha[i1]) - self.Y[i2] * self.kernel(self.X[i2], self.X[i2]) * (alpha2_new-self.alpha[i2])+ self.b
if 0 < alpha1_new < self.C:
b_new = b1_new
elif 0 < alpha2_new < self.C:
b_new = b2_new
else:
b_new = (b1_new + b2_new) / 2
# 更新参数
self.alpha[i1] = alpha1_new
self.alpha[i2] = alpha2_new
self.b = b_new
self.E[i1] = self.calc_E(i1)
self.E[i2] = self.calc_E(i2)
print("Train: {0} iterations have been done.".format(self.max_iter))
from sklearn.svm import SVC
svc = SVC()
svc.fit(X, Y)
svc.score(Xt, Yt)
参考:
- 《统计学习方法》李航
- 《机器学习》周志华
- SVM参考博客