前言
NLP作为机器学习三大热门领域之一,现在的发展也是越来越完备,从2012年神经网络崛起之后,自然语言领域就迎来了春天,特别是当预训练方法横空出世之后,NLP作为最先尝到预训练甜头的先锋,可以说是如虎添翼。虽然我个人做NLP方面的东西比较少(主要是穷,设备有限,跑不动模型),但是在结构化数据挖掘中有时候还是会遇到NLP相关的问题,比如在某些电商问题中,很多数据是文本数据,这些数据还是需要用到NLP的一些处理方法。
以后的发展中会遇到更多关于NLP的问题,所以对于NLP领域一定要有了解,就算达不到精通的程度,但也一定要知道怎么去解决一个NLP问题。本次文章就结合一个相对入门数据集,运用机器学习的方法去解决一个NLP项目最最最基础的流程!
数据集下载地址:https://pan.baidu.com/s/1sQO83_dThPOl4M8pdwmNPQ 提取码:DJNB
文本数据预处理
TF-IDF(词袋模型)
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。词袋模型是NLP领域最常见的文本预处理方法之一,当前我们处理文本数据的时候最常见的两种方法,一种是TF-IDF,另外一种是Word2Vec(词向量模型),Word2Vec后面的项目我可能也会用。本次数据集相对简单,初步采用TF-IDF方法。下面是TF-IDF的计算方法:
计算方法相对来说还是比较简单易懂的。
举个例子
一段文本数据
word=[‘I love china’,‘I am chinese’,‘I come from china’,‘so I am chinese’]
from sklearn.feature_extraction.text import CountVectorizer
word=['I love china','I am chinese','I come from china so I am chinese','I love chinese and I love china']
word_count= CountVectorizer()
Word = word_count.fit_transform(word)
print(word_count.get_feature_names())
print(Word.toarray())
我们可以看看词频的统计结果:
然后再搭配TfidfTransformer计算TF-IDF
transformer = TfidfTransformer()
TFIDF= transformer.fit_transform(word_count.fit_transform(word))
print (TFIDF)
看看最终TF-IDF的计算结果:
整个流程和计算方法就是上面这样!
TF-IDF模型处理文本代码:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import f1_score,accuracy_score
from sklearn.metrics import confusion_matrix
import seaborn as sns
#读取训练数据集
train = pd.read_csv('train.csv',sep='\t')
train['text_split'] = train['text'].apply(lambda x: str(x.split()))
#加载TF-IDF模型,这里我们直接采用TfidfVectorizer模型,就不用像前面那样按照两部来走,直接一步完成,一样的效果
TFIDF = TfidfVectorizer(analyzer='word',
ngram_range=(1,2),
min_df=3,
max_df=0.9,
use_idf=True,
max_features = 3000,
smooth_idf=True,
sublinear_tf=True)
#用词袋模型构建数据
train_TFIDF = TFIDF.fit_transform(train['text_split'])
数据集划分及模型训练
本来现在最流行的NLP训练模型都是深度学习模型,特别是像Transformer,bert这样强大的预训练模型,还有LSTM,TextCNN等等这些神经网络模型,它们做出来的效果都非常好,但是由于我的电脑计算能力有限,深度学习模型跑起来太费劲了,我尝试用LGB这种速度已经非常快的集成模型都要跑几个小时,所以我在这里还是选择了用传统的机器学习模型进行演示,模型选用LR线性回归模型,做出来效果也还是非常不错。
代码如下:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score,accuracy_score
from sklearn.metrics import confusion_matrix
import seaborn as sns
#接着上面代码写
X_train = train_TFIDF
y_train = train['label']
#划分训练集和验证集
x_train, x_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=0.2)
clf = LogisticRegression(C=4, n_jobs=16)
clf.fit(x_train, y_train)
#对验证集进行预测
y_pred = clf.predict(x_valid)
acc=accuracy_score(y_valid,y_pred)
f1=f1_score(y_valid,y_pred, average='macro')
print("LR验证集ACC:"+str(acc)+" "+"LR验证集F1-score:"+str(f1))
classes=train['label'].unique()
cm = confusion_matrix(y_pred,y_valid,labels=classes)
df=pd.DataFrame(cm,index=classes,columns=classes)
plt.figure(figsize=(20, 20))
sns.heatmap(df,annot=True,cmap="Set3")
plt.show()
我们看看在验证集上面的准确率ACC和F1-score值,预测的准确率可以达到90%以上,证明模型效果还是不错的:
混淆矩阵可视化:
我们可以通过混淆矩阵看到我们对于每一个类别的预测情况,可以看到整体的预测效果还是不错的,对于某些类别预测错误我们可以再深入探究,后续可以深度挖掘文本信息。
模型改进
我们上面用到的只是一个最简单的词袋模型加一个线性回归模型,这样都能达到90%以上的准确率还是很可观的,我们还可以尝试对文本进行更加复杂的预处理,或者有条件的朋友可以运用预训练模型或者神经网络模型进行训练,效果肯定比现在好很多,还可以尝试多模型融合,效果也可以大大提升。
写在最后
NLP到此可以算一个初步入门,但是这还远远不够,还有很多好的方法还等待我们学习,慢慢加油!
本人才疏学浅,如果有错误或者理解不到位的地方请指正!