一.最大似然估计

    选择一个(一组)参数使得实验结果具有最大概率。

A. 如果分布是离散型的,其分布律

极大似然法回归_极大似然法回归

,极大似然法回归_极大似然法回归_02是待估计的参数,这里我们假设极大似然法回归_极大似然法回归_02为已知量,则:设X1, X2, ... , Xn 是来自于X的样本,X1,X2,...Xn的联合分布律为:        

极大似然法回归_方程组_04

   (1)

     设x1,x2,...xn是X1,X2,..Xn的一个样本值,则可知X1,..Xn取x1,..,x2的概率,即事件{X1 = x1,...,Xn=xn}发生的概率为:

         

极大似然法回归_逻辑回归_05

   (2)     这里,因为样本值是已知的,所以(2)是极大似然法回归_极大似然法回归_02的函数,

极大似然法回归_似然函数_07

称为样本的似然函数。     最大似然估计:已知样本值x1,...xn,选取一组参数极大似然法回归_极大似然法回归_02,使概率

极大似然法回归_似然函数_07

达到最大值,此时的极大似然法回归_极大似然法回归_02为最大估计值。即取

极大似然法回归_逻辑回归_11

使得:         

极大似然法回归_方程组_12

     

极大似然法回归_逻辑回归_11

与x1,...,xn有关,记为

极大似然法回归_似然函数_14

并称其为参数极大似然法回归_极大似然法回归_02的极大似然估计值。B.如果分布X是连续型,其概率密度

极大似然法回归_似然函数_16

的形式已知,极大似然法回归_极大似然法回归_02为待估计参数,则事件X1,...Xn的联合密度为:        

极大似然法回归_似然函数_18

  (3)

     设x1,..xn为相应X1,...Xn的一个样本值,则随机点(X1,...,Xn)落在(x1,..xn)的领域内的概率近似为:

         

极大似然法回归_方程组_19

   (4)       最大似然估计即为求

极大似然法回归_逻辑回归_11

值,使得(4)的概率最大。由于               

极大似然法回归_最大似然估计_21

不随极大似然法回归_极大似然法回归_02而变,故似然函数为:              

极大似然法回归_逻辑回归_23

  (5)

C. 求最大似然估计参数的步骤:

      (1) 写出似然函数:

              

极大似然法回归_方程组_24

  (6)

               这里,n为样本数量,似然函数表示n个样本(事件)同时发生的概率。

         (2) 对似然函数取对数:

                

极大似然法回归_最大似然估计_25

          (3) 将对数似然函数对各参数求偏导数并令其为0,得到对数似然方程组。

          (4) 从方程组中解出各个参数。

D. 举例:

        设

极大似然法回归_极大似然法回归_26

;

极大似然法回归_极大似然法回归_27

为未知参数,x1,...xn为来自X的一个样本值。求

极大似然法回归_极大似然法回归_27

的极大似然估计值。

       解:X的概率密度为:

             

极大似然法回归_逻辑回归_29

           似然函数为:

            

极大似然法回归_似然函数_30

            

极大似然法回归_最大似然估计_31

            令

极大似然法回归_最大似然估计_32

  即:

极大似然法回归_极大似然法回归_33

             解得:

极大似然法回归_方程组_34

   带入解得

极大似然法回归_最大似然估计_35

二.逻辑回归

     逻辑回归不是回归,而是分类。是从线性回归中衍生出来的分类策略。当y值为只有两个值时(比如0,1),线性回归不能很好的拟合时,用逻辑回归来对其进行二值分类。

     这里逻辑函数(S型函数)为:

      

极大似然法回归_似然函数_36

 (7)

     于是,可得估计函数:

        

极大似然法回归_最大似然估计_37

 (8)

      这里,我们的目的是求出一组极大似然法回归_极大似然法回归_02值,使得这组极大似然法回归_极大似然法回归_02可以很好的模拟出训练样本的类值。

      由于二值分类很像二项分布,我们把单一样本的类值假设为发生概率,则:

           

极大似然法回归_似然函数_40

 (9)

       可以写成概率一般式:

           

极大似然法回归_似然函数_41

   (10)

       由最大似然估计原理,我们可以通过m个训练样本值,来估计出极大似然法回归_极大似然法回归_02值,使得似然函数值最大:

          

极大似然法回归_最大似然估计_43

(11)        这里,

极大似然法回归_似然函数_07

为m个训练样本同时发生的概率。对

极大似然法回归_似然函数_07

求log,得:

            

        

极大似然法回归_方程组_46

   (12)         我们用随机梯度上升法,求使

极大似然法回归_似然函数_47

最大化时的极大似然法回归_极大似然法回归_02值,迭代函数为:           

极大似然法回归_极大似然法回归_49

   (13)         这里

极大似然法回归_似然函数_47

对每个极大似然法回归_极大似然法回归_02分量进行求导,得:         

极大似然法回归_最大似然估计_52

  (14)

         于是,随机梯度上升法迭代算法为:

         repeat until convergence{

               for i = 1 to m{

                         

极大似然法回归_极大似然法回归_53

     (15)

               }

         }

思考:

      我们求最大似然函数参数的立足点是步骤C,即求出每个参数方向上的偏导数,并让偏导数为0,最后求解此方程组。由于极大似然法回归_极大似然法回归_02中参数数量的不确定,考虑到可能参数数量很大,此时直接求解方程组的解变的很困难。于是,我们用随机梯度上升法,求解方程组的值。

备注:

        (a) 公式(14)的化简基于g(z)导函数,如下:

        

极大似然法回归_最大似然估计_55

         (16)

       (b) 下图为逻辑函数g(z)的分布图:

           

极大似然法回归_极大似然法回归_56