中文文本分类的步骤:
1.预处理:去除文本的噪声信息,例如HTML标签、文本格式转换、检测句子边界等。
2.中文分词:使用中文分词器为文本分词,并去除停用词。
3.构建词向量空间:统计文本词频,生成文本的词向量空间。
4.权重策略——TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征。
5.分类器:使用算法训练分类器。
6.评价分类结果:分类器的测试结果分析。
本文选择朴素贝叶斯算法进行文本分类,测试集随机抽取自文档集合,每个分类取10个文档,过滤掉1kb以下的文档。
先建立测试集的向量空间模型。
1.构建测试集的Bunch对象
# 1.构建测试集的Bunch对象
wordbag_path = "./data/test_word_bag/test_set.dat" # 分词语料Bunch对象持久化文件路径
seg_path = "./data/jieba/" # 分词后分类语料库路径
catelist = os.listdir(seg_path)
bunch = Bunch(target_name=[], label=[], filenames=[], contents=[])
bunch.target_name.extend(catelist) # 将类别信息保存到Bunch对象中
for dir in catelist:
count = 0
class_path = seg_path + dir + "/"
file_list = os.listdir(class_path)
for file_path in file_list:
count += 1
fullname = class_path + file_path
bunch.label.append(dir) # 保存当前文件的分类标签
bunch.filenames.append(fullname) # 保存当前文件的文件路径
bunch.contents.append(readfile(fullname).strip()) # 保存文件词向量
if count >= 10:
break
# Bunch对象持久化
# 将数据以对象的形式保存,python提供了pickle模块支持对象的读写
file_obj = open(wordbag_path, 'wb')
pickle.dump(bunch, file_obj)
file_obj.close()
print("构建文本对象结束")
2.构建测试集的词袋
# 读取停用词表
stopword_path = "./data/hlt_stop_words.txt"
stpwrdlst = readfile(stopword_path).splitlines()
# 导入分词后的词向量Bunch对象
path = "./data/test_word_bag/test_set.dat"
bunch = readbunchobj(path)
# 构建测试集TF-IDF向量空间
testspace = Bunch(target_name=bunch.target_name, label=bunch.label, filenames=bunch.filenames, tdm=[],
vocabulary={})
# 导入训练集的词袋,将测试集产生的词向量映射到训练集词袋的词典中,生成向量空间模型。
trainbunch = readbunchobj("./data/train_word_bag/tfidfspace.dat")
# 使用TfidfVectorizer初始化向量空间模型
vectorize = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf=True, max_df=0.5, vocabulary=trainbunch.vocabulary)
transformer = TfidfTransformer()
testspace.tdm = vectorize.fit_transform(bunch.contents)
testspace.vocabulary = vectorize.vocabulary_
# 创建词袋的持久化
space_path = "./data/test_word_bag/testspace.dat"
writebunchobj(space_path, testspace)
3.执行贝叶斯算法进行测试文本分类
from sklearn.naive_bayes import MultinomialNB
# 导入训练集向量空间
trainpath = './data/train_word_bag/tfidfspace.dat'
train_set = readbunchobj(trainpath)
# 导入测试集向量空间
testpath = './data/test_word_bag/testspace.dat'
test_set = readbunchobj(testpath)
# 应用朴素贝叶斯算法
# alpha越小,迭代次数越多,精度越高
clf = MultinomialNB(alpha=0.001).fit(train_set.tdm, train_set.label)
# 预测分类结果
predicted = clf.predict(test_set.tdm)
total = len(predicted)
rate = 0
for flabel, file_name, expect_cate in zip(test_set.label, test_set.filenames, predicted):
if flabel != expect_cate:
rate += 1
print(file_name, "实际类别:", flabel, "-->预测类别:", expect_cate)
print("error rate:", float(rate) * 100 / float(total), "%")
常用评估指标:
召回率R:检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。
准确率P:系统检索到的相关文件/系统所有检索到的文件总数。
F-score:
当时,就是F1-score。
average参数定义了该指标的计算方法,二分类时average参数默认是binary;多分类时,可选参数有micro、macro、weighted和samples。
from sklearn import metrics
def metrics_result(actual, predict):
print("精度:{0:.3f}".format(metrics.precision_score(actual, predict,average='micro')))
print("召回:{0:.3f}".format(metrics.recall_score(actual, predict,average='micro')))
print("f1-score:{0:.3f}".format(metrics.f1_score(actual, predict,average='micro')))