首次接触最优化算法。介绍几个最优化算法,并利用它们训练出一个非线性函数用于分类。

假设现在有一些数据点,我们利用一条直线对这些点进行拟合(该直线为最佳拟合直线),这个拟合过程称作回归。

利用Logistic回归进行分类思想:根据现有数据对分类边界线建立回归公式,以此进行分类。

这里的“回归”一词源于最佳拟合,表示找到最佳拟合参数。训练分类器的做法:寻找最佳拟合参数,使用的是最优化算法(梯度上升法、改进的随机梯度上升法)。

5.1 基于Logistic回归和Sigmoid函数的分类

Logistic回归:优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。适用数据类型:数值型、标称型。

Sigmoid函数:g(z)=1/(1+e-z),也可表示为hΘ(X)=g(ΘTX).

为了实现Logistic回归分类器,我们需要在每个特征上乘以一个回归系数,然后把所有结果值相加,将这个总和代入Sigmoid函数,进而得到0~1之间的数值。

回归拟合的深度学习模型 回归模型拟合效果最好_回归拟合的深度学习模型

此时就可以对标签y进行分类了:

回归拟合的深度学习模型 回归模型拟合效果最好_拟合_02

其中θTx=0 即θ0+θ1*x1+θ2*x2=0 称为决策边界即boundarydecision。

Cost function:

线性回归的cost function依据最小二乘法是最小化观察值和估计值的差平方和。即:

回归拟合的深度学习模型 回归模型拟合效果最好_数据_03

但是对于logistic回归,我们的cost fucntion不能最小化观察值和估计值的差平法和,因为这样我们会发现J(θ)为非凸函数,此时就存在很多局部极值点,就无法用梯度迭代得到最终的参数(来源于AndrewNg video)。因此我们这里重新定义一种cost function

回归拟合的深度学习模型 回归模型拟合效果最好_拟合_04

通过以上两个函数的函数曲线,我们会发现当y=1,而估计值h=1或者当y=0,而估计值h=0,即预测准确了,此时的cost就为0,,但是当预测错误了cost就会无穷大,很明显满足cost function的定义。

可以将上面的分组函数写在一起:

回归拟合的深度学习模型 回归模型拟合效果最好_拟合_05

 

这样得到总体的损失函数J(θ)为:

回归拟合的深度学习模型 回归模型拟合效果最好_回归拟合的深度学习模型_06

5.2 基于最优化方法的最佳回归系数确定

Sigmoid函数输入记为z, z=w0x0+w1x1+...+wnxn。如果采用向量的写法,z=wTx,表示将这两个数值向量对应的元素相乘然后全部加起来得到z值。

其中向量x是分类器的输入数据,向量w就是我们要找到的最佳参数(系数)。 

5.2.1 梯度上升法

梯度上升法思想:要找到某个函数的最大值,最好的方法是沿着该函数的梯度方向探寻。如果梯度记为▽,则函数f(x,y)的梯度由下式表示:

回归拟合的深度学习模型 回归模型拟合效果最好_数据_07

。这个梯度意味着沿x方向移动

回归拟合的深度学习模型 回归模型拟合效果最好_迭代_08

,沿y方向移动

回归拟合的深度学习模型 回归模型拟合效果最好_数据_09

。其中,函数f(x,y)必须在待计算的点上有定义并且可微。

这样我们依据上面的J(θ)就可以得到梯度上升的公式:

回归拟合的深度学习模型 回归模型拟合效果最好_迭代_10

当然上图中少了个求和符号。这样就得到

回归拟合的深度学习模型 回归模型拟合效果最好_数据_11

当然对于随机化的梯度迭代每次只使用一个样本进行参数更新,就为:

回归拟合的深度学习模型 回归模型拟合效果最好_回归拟合的深度学习模型_12

这也是下面代码中公式的来源。

例如:data=[1,2,3;4,5,6;7,8,9;10,11,12]为4个样本点,3个特征的数据集,,此时标签为[1,0,0,0],

那么用梯度上升

回归拟合的深度学习模型 回归模型拟合效果最好_回归拟合的深度学习模型_13

  表达的就是当j=0时,就是第一列[1,4,7,10]与标签差的乘积。。这个自己体会下吧。。

为什么要采用上面的函数作为cost function?

Andrew Ng给的解释是因为最小估计值和观察值的差平方和为非凸函数,通过函数曲线观察得到上面的cost function满足条件。

这里给出另外一种解释——最大似然估计:

我们知道hθ(x)≥0.5<后面简用h>,此时y=1, 小于0.5,y=0. 那么我们就用h作为y=1发生的概率,那么当y=0时,h<0.5,此时不能用h作为y=0的概率,<因为最大似然的思想使已有的数据发生的概率最大化,小于0.5太小了>,我们可以用1-h作为y=0的概率,这样就可以作为y=0的概率了,,然后只需要最大化联合概率密度函数就可以了。

这样联合概率密度函数就可以写成:

回归拟合的深度学习模型 回归模型拟合效果最好_迭代_14

再转换成对数似然函数,就和上面给出的似然函数一致了。

回归拟合的深度学习模型 回归模型拟合效果最好_数据_15

回归拟合的深度学习模型 回归模型拟合效果最好_数据_16

 图5-2  梯度上升算法到达每个点后都会重新估计移动的方向

图5-2中的梯度上升算法沿梯度方向移动了一步。梯度算子总是指向函数值增长最快的方向。这里说的移动方向,而未提到移动量的大小。该量值称为步长,记做α。用向量来表示的话,梯度上升算法的迭代公式如下: w:=w+α▽wf(w).

该公式将一直进行迭代,直到达到某个停止条件为止,比如迭代次数达到某个指定值或算法达到某个可以允许的误差范围。

5.2.2 训练算法:使用梯度上升找到最佳参数

训练样本:100个样本点,每个点包含两个数值型特征:x1和x2.


#coding:utf-8
from numpy import *

def loadDataSet():#便利函数:打开文件并逐行读取
    dataMat = []; labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])#为方便计算,将x0值设为1.0
        labelMat.append(int(lineArr[2]))
    return dataMat, labelMat

def sigmoid(inX):
    return 1.0/(1+exp(-inX))

def gradAscent(dataMatIn, classLabels):#梯度上升:dataMatIn:2维NumPy数组,100*3矩阵;classLabels:类别标签,1*100行向量
    dataMatrix = mat(dataMatIn)#特征矩阵
    labelMat = mat(classLabels).transpose()#类标签矩阵:100*1列向量
    m,n = shape(dataMatrix)
    alpha = 0.001#向目标移动的步长
    maxCycles = 500#迭代次数
    weights = ones((n,1))#n*1列向量:3行1列
    for k in range(maxCycles):
        h = sigmoid(dataMatrix*weights)#100*3*3*1=100*1,dataMatrix * weights代表不止一次乘积计算,事实上包含了300次乘积
        error = (labelMat - h)#真实类别与预测类别的差值
        weights = weights + alpha * dataMatrix.transpose()* error#w:=w+α▽wf(w)
    return weights


回归拟合的深度学习模型 回归模型拟合效果最好_回归拟合的深度学习模型_17

注:倒数第二行代码


weights = weights + alpha * dataMatrix.transpose()* error#w:=w+α▽wf(w)


回归拟合的深度学习模型 回归模型拟合效果最好_迭代_18

回归拟合的深度学习模型 回归模型拟合效果最好_拟合_19

回归拟合的深度学习模型 回归模型拟合效果最好_迭代_20

5.2.3 分析数据:画出决策边界

上面已经解出一组回归系数,它确定了不同类别数据之间的分隔线。如何画出分隔线,从而使得优化过程便于理解?


#5-2:画出数据集和Logistic回归最佳拟合直线的函数
def plotBestFit(weights):
    import matplotlib.pyplot as plt
    dataMat, labelMat = loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0]#n=100
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i]) == 1:
            xcord1.append(dataArr[i, 1]); ycord1.append(dataArr[i, 2])
        else:
            xcord2.append(dataArr[i, 1]); ycord2.append(dataArr[i, 2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)#arange创建等差数组,-3.0起始点,3.0终止点(不包含3.0),间隔为0.1
    y = (-weights[0] - weights[1] * x)/weights[2]#最佳拟合直线,设置sigmoid函数为0,0是两个分类(类别1和类别0)的分界处。因此设定0=w0x0+w1x1+w2x2,解出x1和x2关系(即分割线的方程,x0=1)。
    ax.plot(x, y)
    plt.xlabel('X1');plt.ylabel('X2');
    plt.show()


回归拟合的深度学习模型 回归模型拟合效果最好_迭代_21

回归拟合的深度学习模型 回归模型拟合效果最好_拟合_22

这个分类结果相当不错,尽管例子简单且数据集很小,这个方法却需要大量的计算(300次乘法)。

因此下一节将对该算法稍作改进,从而使它可以用在其他真是数据上。

注明:5.1参考下面链接


作者:小村长