目前网上流行一种进行情感分析的嵌入界面,通过提交评论进行实时情感分析,但是目前网上的开源代码多基于慕课源码的英文文本情感分析。为了能够进行中文的文本情感分析,此篇文章通过收集微博情感数据集进行训练和实现一个基于中文的简单情感分析web系统。
该项目主要实现了两个内容:
一是基于词频统计和词嵌入的特征表示方法分别比较了SVM算法和LSTM算法在中文情感分析上的性能。
二是将利用flask构建一个简单的web网页,将SVM算法嵌入到web系统中,根据用户的反馈来更新模型。
一,情感分析算法比较:
数据集:微博评论数据集:POS:4000条;NEG:4000条;数据样本如图1.1
图1.1
词特征表示方法:CountVectorizer: 只考虑词汇在文本中出现的频率;word2vec特征表示方法
划分数据集:
x_train, x_test, y_train, y_test= train_test_split(x_pca, y, test_size=0.35)
代码实现环境:
python3.6 ; keras2.16 tensorflow 1.13 sklearn
SVM方法:其分类结果统计如图1.2
图1.2
LSTM方法:其分类结果统计如图1.3
图1.3
结果分析:单层的LSTM神经网络结果要好一点,当然该方法的训练速度慢一些。为了能够加快系统的相应时间,我们将在系统中嵌入SVM算法。
二、使用flask将SVM模型嵌入到web系统中
实现功能:
1、评论文本提交页面 2、情感值打分界面 3、返回界面,保存历史数据
代码依赖库:flask;pickle等
数据库:sqlite3(用于分析结果数据存储)
评论文本提交功能界面如图1.4 :
如图1.4
情感值检测返回界面如图1.5:
图1.5
返回界面,保存历史数据如图1.6 ;通过这个界面提交评论。利用SQLiteStudio可以查看数据库保存的评论。
图1.6
app.py核心代码:
#创建一个falsk对象
app = Flask(__name__)
#创建一个评论数据库,在app.py运行之前先运行这个方法
def create_review_db():
conn = sqlite3.connect("db/move_review.db")
c = conn.cursor()
#move_review主要包括四个字段,review_id(评论ID,主键自增)、review(评论内容)、sentiment(评论类别)、review_date(评论日期)
c.execute("CREATE TABLE move_review (review_id INTEGER PRIMARY KEY AUTOINCREMENT,review TEXT"
",sentiment INTEGER,review_date TEXT)")
conn.commit()
conn.close()
#将评论保存到数据库中
def save_review(review,label):
conn = sqlite3.connect("db/move_review.db")
c = conn.cursor()
#向数据库中插入评论
c.execute("INSERT INTO move_review (review,sentiment,review_date) VALUES "
"(?,?,DATETIME('now'))",(review,label))
conn.commit()
conn.close()
#获取评论的分析结果
def classify_review(review):
data = pd.read_csv('text.csv', encoding='utf-8')
# data.drop(['Unnamed: 2','Unnamed: 3','Unnamed: 4'],axis=1,inplace=True)
data['label'] = data['v1'].map({'NEG': 0, 'PSO': 1})
X = data['v2']
# print(X.type)
# print(X)
temp_list = list()
for i in X:
temp_list.append(i)
X = prepareData(temp_list)
y = data['label']
# X=tokenizer(X)
cv = CountVectorizer() # 将文本中的词语转换为词频矩阵
X = cv.fit_transform(X) # 计算各个词语出现的次数
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
clf = SVM()
clf.fit(X_train, y_train)
label = {0:"negative",1:"positive"}
X = cv.transform(review).toarray()
# my_predict = clf.predict(vect)
#将评论转换成为特征向量
# X = vect.transform(review)
#获取评论整数类标
Y = clf.predict(X)[0]
#获取评论的字符串类标
label_Y = label[Y]
#获取评论所属类别的概率
proba = np.max(clf.predict_proba(X))
return Y,label_Y,proba
#跳转到提交评论界面
@app.route("/")
def index():
#验证用户输入的文本是否有效
form = ReviewForm(request.form)
return render_template("index.html",form=form)
#跳转到评论分类结果界面
@app.route("/main",methods=["POST"])
def main():
form = ReviewForm(request.form)
if request.method == "POST" and form.validate():
#获取表单提交的评论
review_text = request.form["review"]
#获取评论的分类结果,类标、概率
Y,lable_Y,proba = classify_review([review_text])
#将概率保存2为小数并转换成为百分比的形式
proba = float("%.4f"%proba) * 100
#将分类结果返回给界面进行显示
return render_template("reviewform.html",review=review_text,Y=Y,label=lable_Y,probability=proba)
return render_template("index.html",form=form)
#返回界面
@app.route("/tanks",methods=["POST"])
def tanks():
#判断用户点击的是分类正确按钮还是错误按钮
btn_value = request.form["feedback_btn"]
#获取评论
review = request.form["review"]
#获取评论所属类标
label_temp = int(request.form["Y"])
#如果正确,则类标不变
if btn_value == "Correct":
label = label_temp
else:
#如果错误,则类标相反
label = 1 - label_temp
save_review(review,label)
return render_template("tanks.html")
class ReviewForm(Form):
review = TextAreaField("",[validators.DataRequired()])
展望:
总结:该项目基本实现了中文文本的情感分析任务(与英文不同于分词等预处理操作,交流Q:525894654),其次将机器算法嵌入到WEB界面中,实现了一个简单的小平台。但是该项目仍旧有许多点可以继续延伸探索:
1.分类算法上:中文文本的预处理应更为细致,词嵌入的训练要基于更大规模数据集,或者采用BERT方法进行训练词嵌入。
2.由分类算法的延伸探索,则会给系统带来响应时间慢等问题。这个问题的解决仍旧值得去细化。