电话机器人效果好不好,首先得看他的语音识别能力怎么样,语音识别率高、稳定,那么这个电话机器人就不会差。我们可以看一下语音识别的基本原理:

一个基本的语音识别系统如下图,实现是正常工作流程,虚线是训练模式分类问题中的模板(这里就是声学模型,字典和语言模型)。

5分钟带你读懂“语音识别”工作原理_经验分享

 

预处理:

1. 首尾端的静音切除,下降对后续进程形成的搅扰,静音切除的操作一般称为VAD。

2. 声响分帧,也就是把声响切开成一小段一小段,每小段称为一帧,运用移动窗函数来完成,不是简略的切开,各帧之间一般是有交叠的。

特征提取:首要算法有线性猜测倒谱系数(LPCC)和Mel 倒谱系数(MFCC),意图是把每一帧波形变成一个包括声响信息的多维向量;

声学模型(AM):经过对语音数据进行练习取得,输入是特征向量,输出为音素信息;

字典:字或许词与音素的对应, 简略来说, 中文就是拼音和汉字的对应,英文就是音标与单词的对应;

言语模型(LM):经过对大量文本信息进行练习,得到单个字或许词彼此相关的概率;

解码:就是经过声学模型,字典,言语模型对提取特征后的音频数据进行文字输出;

语音辨认流程的举例(仅仅形象表述,不是实在数据和进程):

1. 语音信号:PCM文件等(我是电销机器人)

2. 特征提取:提取特征向量[5 4 2 66 98 ...]

3. 声学模型:[5 4 2 66 98]-> wo shi dianxiao jiqiren

4. 字典翻译:窝:w o;我:w o; 是:s i;电销:dian xiao 机:j i; 器:q i; 人:r en

5. 言语模型:我:0.1286, 是: 0.3616,电销:0.5682,机器人:0.6785;

6. 输出文字:我是电销机器人;