1. 术语理解

    示例:

        对应着数据中的一条记录(多条记录构成数据集)。可以包含标记,也可以不包含标记

    假设一条记录有多个属性构成的,则这条记录就有5维。多个属性构成的空间叫做属性空间,样本空间(示例也可以叫做样本)或者输入空间。每个属性都有多个属性取值,则每条记录都能够在输入空间中找到唯一的一个点与之对应,我们称这个点为一个坐标向量,因此我们也把一个示例称为一个特征向量。

样例:

    拥有标记信息的示例,则称为样例。

模型:

    对训练集(x1,y1),(x2,y2)....(xm,ym)进行学习,建立一个从输入空间x到输出空间y的映射f:x能够推 y,言下之意就是能够根据记录的属性数推测出记录的标签。也就是所谓的输入空间x推导出输出空间y的f。

预测:

    对测试集(xm+1,ym+1),(xm+2,ym+2),...(xm+n,ym+n),进行测试,根据输入空间x推导出输出空间y与示例的实际y值进行对比的过程。

泛化:

    模型适用于新样本的能力,称为泛化能力(泛化能力有强弱之分)。

假设空间:

    每个样例它有多个属性,每个属性有多个取值,这些取值之间的组合就构成了假设空间。我们的目的就是对这个空间进行搜索,从一般到特殊,或是自底向上,从特殊到一般,搜索过程中可以不断删除与正例不一致的假设,和(与)反例一致的假设。最终将会获得与训练集一致的假设,这就是我们学得到的结果,即模型。也就是说假设空间,我们学的模型,可能有多个,这个怎么办呢?选择哪个好了。

    归纳偏好:在假设空间学到的模型有多个,每个模型在面对新样本的时候会产生不同的输出,机器学习对某种模型的偏好,称之为归纳偏好。

2.模型评估

    错误率:如果在m个样本中有a个样本分类错误,则错误率为E=a/m

    精度:1-E

    泛化误差:我们把模型用于新样本上产生的误差,称为泛化误差。

    欠拟合:对于训练集学习太差,泛化能力很弱,欠拟合问题容易解决。

    过拟合:对于训练集学习太好,泛化能力很弱,过拟合很难解决。

    泛化误差的衡量:需要一个测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差,作为泛化误差的近似。

    测试集的选取有一定的标准。

    留出法:直接将数据集D,划分成训练集S和测试集T,分层采样,训练集中有多少是正样本的比例,多少负样本的比例,则测试集中就应该有多少个。一般来说,即便给定训练集合测试集的样本比例后,不同的数据划分,也会造成结果的差异。例如500个正例中,有350个为训练集正例,150个为测试集正例,那么到底以这500个中,那些正例划分为350个呢,不同的划分方法结果也会不一样,怎么办呢?一般采用随机划分,重复进行试验评估后,去平均值做为留出法的评估结果。我们规定一般留出法的比例为2/3到4/5用于训练,剩余的用作测试。

    留一法:就留一个做为测试,其他的都做为训练。

    交叉验证法:将数据集划分为K个大小相似的互斥子集,都是通过分层采样,以前k-1个作为训练,第k个作为测试,测试算出第一次结果,在以k-2和最后一个k作为训练,以第k-1个作为测试集,算出第二次结果。....以此类推,多次算出之后,取其平均值。

    自助法:从数据集中D,抽一个放入D’中,然后在放回D中,在继续抽一个放入D'中,抽取m个,这个对集成学习等方法会有很大的好处。(利于集成分类器的之间的差异性)

    调参与最终模型:大多数学习算法,都有些参数需要设定,参数配置不同,学得模型的性能往往有差别。

    性能度量:    

            对回归任务来说,最常用的性能度量是均方误差。

            错误率:不必多说,前面有

            精度:不必多说,前面有

            分类结果的混淆矩阵:TP+FP+TN+FN=测试样本数。TP+FP=你认为的正例个数,TP是实际的正例个数。

                                FN+TN=你认为的反例个数,TN=实际反例个数。

            查准率: 实际的正例个数TP/你认为的正例个数

            查全率:实际的正例个数TP/你认为的实际的正例个数+实际的反例个数