贝叶斯算法(Bayes)
优点:1:所需估计的参数少,对于缺失数据不敏感。2:有着坚实的数学基础,以及稳定的分类效率。
缺点:1:需要假设属性之间相互独立,这往往不成立(例如,喜欢吃番茄,鸡蛋,缺不喜欢吃番茄吵鸡蛋)。2:需要知道先验概率。3:分类决策存在错误率
决策树(Decision Tree)
优点:1:不需要任何领域知识或参数假设。2:适合高维数据。3:简单,易于理解。4:能够在短时间内处理大量数据,得到可行且效果较好的结果。5:能够同时处理数据型和常规型属性。
缺点:1:对于各类别样本数量不一致的数据,信息增益偏向于那些具有更多数量的样本。2:容易发生过拟合。3:忽略属性之间的相关性。4.不支持在线学习。
支持向量机(SVM)
优点:1,可以解决小样本下的机器学习问题。2,提高泛化性能。3,可以解决高维,非线性问题。超高维文本分类仍然受欢迎。4,避免神经网络结构选择和局部极小的问题。
缺点:1,对缺失数据敏感。2,内存消耗大,难以解释。3,运行速度慢,调参复杂。
K近邻(KNN)
优点:1,核心思路简单,理论成熟,既可以用来做分类,也可以用来做回归。2,可用于非线性分类。3,训练时间复杂度为O(n)。4,准确度高,对数据没有假设,对离群值不敏感。
缺点:1,计算量太大。2,对于样本分类不均衡的问题,会产生误判。3,需要大量的内存。4,输出的可解释性不强。
逻辑回归(Logistic Regression)
优点:1,速度快。2,简单,易于理解,直接看到各个特征的权值。3,能容易的更新模型,吸收新的数据。4,想要一个概率框架,能够动态的调节分类阈值。
缺点:特征处理过程复杂,需要进行归一化等特征工程。
神经网络(Neural Network)
优点:1,分类准确率高。2,并行处理能力强。3,分布式存储和学习能力强。4,鲁棒性较强,不易受噪声影响。
缺点:1,需要大量参数(网络拓扑,阈值)。2,结果难以解释。3,训练时间较长。
自适应增强算法(Adaboosting)
优点:1,有很高精度。2,可以使用各种方法构建子分类器,Adaboosting提供的框架。3,当使用简单分类器时,计算出的结果是可以理解的,而且弱分类器构造机器简单。4,流程简单,不用做特征选择。5,不用担心过拟合。
缺点:对离群值比较敏感。