1.参数模型

参数模型(parametric models)与非参数模型(Nonparametric models)的主要区别在于:对于数据分布的假设不同。
参数模型对于数据分布(data distribution)是有假设的,而非参数模型对于数据分布是假设自由的(distribution free)。因此,所谓参数模型与非参数模型中的参数,是指数据分布的参数。

常见的参数模型包括:
逻辑回归
线性回归
其中,逻辑回归我们假设一个样本数据符合伯努利分布,而线性回归我们假设响应变量是服从正态分布的。

根据上面的介绍,很容易看出来参数模型有如下优点:
1.简单明了,具有较强的可解释性,实际上工程中常用的逻辑回归很重要的一个优点就是可解释性强。
2.训练速度快。因为我们已经假设了数据分布的参数,因此参数学习与训练过程都会比较快。
3.需要的数据量小:只需要比较少的样本就能对数据拟合做得比较好。

2.非参数模型

与参数模型相比,自然非参数模型就是对数据分布的参数不做假设。
像我们常用的树模型,naive bayes, svm等,都是非参数模型。

因为非参数模型不对目标函数做假设,或者假设很小,所以模型的表达能力会比较强。而且由于模型形式的局限性比较小,所以对数据有更良好的拟合性。但同样缺点也比较明显,往往需要更多的数据量,而且训练速度慢,同时有比较高的可能发生overfitting。

3.生成模型与判别模型

对于观测变量X与目标变量Y,判别模型是给定观测变量X只有Y的条件概率分布,即P(Y|X=x);而生成模型是获取X与Y的联合概率分布P(X, Y)。

机器学习 非参数化模型 非参数化建模优点_机器学习 非参数化模型


图片来自网络

对于判别模型来说,是求P(Y|X)。比如我们常见的LR,SVM等算法,都是判别模型。当输入X确定以后,输出Y就可以确定。
而生成模型的典型例子是Naive Bayes。贝叶斯公式的基本推导过程就是由联合概率公式而来:
机器学习 非参数化模型 非参数化建模优点_非参数模型_02

比如我们用贝叶斯进行分类,最核心的其实就是算出联合概率p(x,y)再去反推后验概率p(y|x)。
像隐马尔可夫模型HMM也是常见的生成模型。