文本分类的14种算法总结

之前介绍了14种文本分类中的常用算法,包括8种传统算法:k临近、决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、逻辑回归和支持向量机;4种集成学习算法:随机森林、AdaBoost、lightGBM和xgBoost;2种深度学习算法:前馈神经网络和LSTM。
各篇链接如下:
测试环境搭建与数据预处理:

决策树、朴素贝叶斯(伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯):

k临近、逻辑回归、SVM支持向量机:

随机森林、AdaBoost、多层感知器:

lightGBM、xgBoost:

前馈神经网络、LSTM(包括pycharm深度学习环境搭建):

性能评估

先放代码和数据集:
链接:https://pan.baidu.com/s/14TPM2I0sRV7mCxsfXHKk0A
提取码:wt2u

所有14种算法我都跑了一遍,其中4种算法要么把我电脑跑死机了,要么时间长的令人发指,就没跑完。整理了跑出来的10种算法的正确率和耗时如下:

深度学习算法做文本分类 文本分类算法有哪些_深度学习算法做文本分类


下面这篇博文有一个区别度更大、更完整的排名:

https://www.kesci.com/home/project/5cbbe1668c90d7002c810f79

深度学习算法做文本分类 文本分类算法有哪些_大数据_02


这种简单的文本分类练习,不同算法的性能分层还是比较明显的。

知识总结

1.机器学习、集成学习和深度学习:

1)机器学习泛指所有的使机器通过建立和调整模型从而实现特定功能的算法。2)深度学习是运用了多层的人工神经网络(ANN)的机器学习方法。3)集成学习是指通过将多个弱分类器的分类结果进行整合,获得比单个弱分类器更好效果的机器学习方法。
集成学习和深度学习属于机器学习。

2.集成学习的bagging和boosting思想:

bagging中的各个弱分类器取值是相互独立的、无关的,常使用有放回抽样实现。
boosting中的弱分类器是在基分类器/前一个分类器的基础上通过迭代不断优化/调整出来的。

3.三种朴素贝叶斯:

高斯贝叶斯GaussianNB、多项式贝叶斯MultinomialNB和伯努利贝叶斯BernoulliNB。
分别对应数据满足高斯分布(正态分布)、多项式分布和伯努利分布的训练集数据。

1)伯努利贝叶斯即特征的取值只有取和不取两类(0和1),对应朴素贝叶斯公式中,
p(yi)=标签为yi的文本数(句子数)/文本总数(句子总数)
p(xj|yi)=(标签为yi的文本中出现了单词xj的文本数+1)/(标签为yi的文本数+2)。

2)多项式贝叶斯其实就是伯努利贝叶斯的特征取值由简单的0-1扩展为多个值的情况,
p(yi)=标签为yi的文本中的单词总数/训练集中的单词总数
p(xj|yi)=(标签为yi的文本中单词xj的出现次数+1)/(标签为yi的文本中的单词总数+词袋单词种数)。

3)高斯贝叶斯常被用来处理连续数据(如身高)。

4.AdaBoost、lightGBM(GBDT)和xgBoost

AdaBoosting是Boosting框架+任意基学习器算法+指数损失函数。
GBDT是Boosting框架+CART回归树模型+任意损失函数。
AdaBoosting利用前一轮迭代弱学习器的误差率来更新训练集的权重,而GBDT采用梯度下降法:丢掉大梯度的数据而收纳梯度较小的数据加入目标决策树以使树回归(贴近真实值)。
xgBoost的损失函数还考虑了树不能太复杂且要分配均衡:一棵树太复杂,鹤立鸡群,就容易产生弱分类器间的过拟合;一棵树内部的节点间不均衡,就容易导致大节点代表的分类特征/分裂阈值的权重过大,就会产生树内部节点之间的过拟合。

值得注意的是AdaBoosting的误差率、权重和GBDT的梯度都是在弱分类器之间的关系上的,是在分类器迭代时起作用的,而不是用在单个弱分类器的节点分裂层面上的,但其实是有影响的。

这里就要说到损失函数、决策树节点分裂阈值和弱分类器迭代、生成之间的关系了。节点分裂阈值和分类特征的选定是根据损失函数来确定的——假设损失函数为L(w),w为目标决策树的叶节点分裂阈值向量,我们使损失函数最小,求得此时的min(w)作为目标决策树的节点分裂阈值。
在这个过程中我们虽然做的是对于单一决策树的节点分裂特征/阈值选定,但如果一棵树的节点分裂特征/阈值全都确定了,这棵树也就确定了。所以我们就可以通过使损失函数L(w)取最小值的方式,确定w,同时优化决策树的节点分裂(通过w)和不同弱分类器间的迭代优化(通过使L(w)最小)。即通过w确定目标决策树,通过w的取值带动L(w)取最小,进而实现弱分类器的迭代优化。