背景:
最近在设计一个公司的智能客服系统,通过对现有人工客服语料作为样本,通过训练样本完成整个QA过程或业务办理过程。
整体思路
- AliceBot负责闲聊,这里用了开源的语料,也可以添加语料到DB,基于AIML。
- AbilityBot主要负责公司业务上的咨询和办理,它提供了不同的能力接口,供外系统交互。
- predict模块用于预测响应。
- train模块用于训练客服对话样本。
语音转换
由第三方语音识别服务提供转换成文本,比如讯飞。
语义处理
由于机器本来是无法理解文本的含义的,如果要真正做到语义完整的解析理解需要涉及自然语言处理,工程庞大。可以换种思维,由于只是做某个特定行业的客服系统,并不是大而全的智能客服,所以可以通过VSM来匹配QA相关度,在给定的语料中这种匹配效果还是相当不错的。
分词
拿到文本后第一步需要分词,选择一个开源的中文分词器即可,分了词才能往下分析。
VSM
主要是匹配用户input和语料,VSM比较常见了,主要是通过词向量才计算文本相似性,它的公式如下
只要匹配最相近得分的即可。
上下文语义
要做到理解上下文语义就需要引入决策树或神经网络,这块还得结合后面北邮博士那边的思路。
demo