一、统计学习方法概论

统计学习方法是基于数据构建统计从而进行预测和分析。
方法: 监督学习、非监督学习、半监督学习和强化学习。
统计学习方法的三要素:假设空间、模型选择的准则和模型学习的算法。 (模型、策略、算法)
1.1、基本概念


将输入和输出的所有可能的取值的集合分别成为输入空间(input space)和输出空间(output space)。

输入的实例,通常由特征向量表示,所有特征向量存在的空间成为特征空间,特征空间的每一维对应一个特征。

2、联合概率分布 X,Y X , Y 遵循联合概率分布 P(X,Y) P ( X , Y ) 。则 P(X,Y) P ( X , Y ) 为分布函数 (密度函数)。 3、假设空间 监督学习目的在于:学习一个由输入与输出的映射形成的这一模型。输入空间与输出空间的映射集合,就是假设空间

1.2、问题的形式化
监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测(prediction), 
监督学习分为学习和预测两个过程,由学习系统和预测系统完成。

统计学习方法之一_特征空间

1.3、统计学习三要素

统计学习方法之一_统计学习方法_02

1.3.1、常用的几种损失函数(loss function)

统计学习方法之一_特征空间_03


统计学习方法之一_统计学习_04

1.3.2、经验风险最小化与结构风险最小化

统计学习方法之一_特征空间_05

1.4、模型评估和选择
1.4.1、训练误差与测试误差

统计学习方法之一_k近邻_06

1.4.2、过拟合和模型的选择

统计学习方法之一_统计学习方法_07

1.5、正则化和交叉验证

统计学习方法之一_统计学习方法_08


统计学习方法之一_统计学习_09

1.6、分类问题

统计学习方法之一_统计学习方法_10

二、感知机

2.1、感知机模型

统计学习方法之一_统计学习方法_11

2.2、算法的收敛性

统计学习方法之一_特征空间_12

三、K近邻法

3.1、K近邻属性
K近邻是不具有显式的学习过程,当K=1的时候,成为最近邻算法。 
K最近邻(k-Nearest Neighbour,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,
在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),
这K个实例的多数属于某个类,就把该输入实例分类到这个类中。

统计学习方法之一_k近邻_13

3.2、距离度量

R2

R 2 ,使用的距离是欧式距离,也可以使用其他的距离,如下:

统计学习方法之一_统计学习方法_14

3.3、k值的选择

统计学习方法之一_统计学习_15

3.4、K近邻搜索:kd树
K近邻法最简单的实现方法是线性扫描 

统计学习方法之一_统计学习方法_16

3.5、搜索方法

统计学习方法之一_k近邻_17

四、朴素贝叶斯

4.1、原理
朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素。 
朴素贝叶斯的思想基础是这样的:
对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。
为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,
我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础

统计学习方法之一_统计学习方法_18

4.2、极大似然估计
4.3、计算 分类的步骤
4.4、贝叶斯估计(类似于拉普拉斯平滑)