对话式交互技术原理及流程揭秘
语音识别 ASR
ASR(Automatic Speech Recognition)直译为自动语音识别,是一种通过声学模型和语言模型,将人的语音识别为文本的技术。近年来,随着深度学习在语音识别中的广泛使用,识别的准确率大大提高,让这项技术能被广泛地应用于语音输入、语音搜索、实时翻译、智能家居等领域,让人与机器的语音交互变为可能。
语义理解 NLU
语音识别只是知道我们说了什么,但真正要理解我们说的是什么,就需要依靠NLU这项技术。NLU(Natural Language Understand)直译为自然语言理解,是NLP(Natural Language Processing,自然语言处理)的一个子集,专注于“口语表达和对话”方向的自然语言处理。我们首先快速了解一下NLP,NLP研究主要用来解决下面这些问题:
- 分词:中文的书写词语之间不会用空格等符号来分割,分词就是将汉字序列切分成词序列,因为在汉语中,词是承载语义的基本单元。比如从北京飞上海这句话的分词为:从 北京 飞 上海。
- 词性标注:词性用来描述一个词在上下文中的作用,如名词、动词、形容词等,词性标注就是识别这些词的词性,来确定其在上下文中的作用。
- 命名实体识别:在句子中定位并识别人名、地名、机构名、数字、日期等实体。
- 文本分类:文本分类就是将一篇文档归入预定义类别中的一个或几个,比如将某一类邮件归类为垃圾邮件,区分不同新闻的类型等。
- 情感分析:情感分析是找出说话者或文本作者对某个话题的两极性观点(积极或消极)、情绪(高兴、悲伤、喜欢、厌恶等)。
自然语言理解通过使用上述技术,完成指代消解、否定判断、语句泛化、口语归一化、ASR纠错等工作,识别人机对话中的领域和意图,获得对话任务的语义信息。
对话管理 DM
DM(Dialog Management)直译为对话管理,是对话式交互系统的核心,负责控制整个对话过程。主要包括对话上下文(Dialog Context)、对话状态跟踪(Dialog State Tracking)和对话策略(Dialog Policy)几部分。
- 对话上下文:记录对话的领域、意图和词槽数据,每个领域可能包含多个意图的数据,一般以队列的形式存储。
- 对话状态跟踪:每轮对话开始后,会结合本轮对话提供的语义信息和上下文数据,确定当前对话状态,同时会补全或替换词槽。
- 对话策略:根据对话状态和具体任务决定要执行什么动作,比如进一步询问用户以获得更多的信息、调用内容服务等。
对话生成 NLG
NLG(Natural Language Generation)直译为自然语言生成,即对话生成的技术。对于任务导向的对话来说,NLG基本以模板形式来实现。模板中的回复信息可由词槽或通过内容服务得到的数据来替换。对话生成的原则是符合自然语言交互的习惯,易于用户理解,最快完成对话。此外,NLG还可以用于引导用户的交流习惯,比如NLG的内容为"已经为你开启导航",可以引导用户在希望导航时,说"开启导航"。
语音合成 TTS
TTS(Text To Speech)是指语音合成技术。对话系统的输出是文本形式的NLG或者指令,当对话返回的内容是NLG时,通过TTS技术能将这些文本转换成流畅的语音,播放给用户。TTS技术提供语速、音调、音量、音频码率上的控制,打破GUI中传统的文字式人机交互方式,让人机沟通更自然。