1、语音交互-示意图1(最简版)
科普:语音交互的过程
A)语音识别(Automatic Speech Recognition),一般简称ASR;是将声音转化为文字的过程,相当于人类的耳朵。
B)自然语言处理(Natural Language Processing),一般简称NLP;是理解和处理文字的过程,相当于人类的大脑。
上图中,写的是“语义理解”(Semantic understanding,行业提到时,也会简称为“语义”),广义来说,也行,因为行业内有时也这么用。
有时“语音”和“语义”会成对出现。比如说“讯飞的核心技术积累在语音,图灵机器人的核心技术积累在语义”。当然,这时也可以用“语音识别”和“自然语言处理”来成对出现,不能说错,只不过比“语音”+“语义”要繁琐和绕口一点。
C)语音合成(Text-To-Speech),一般简称TTS;是将文字转化为语音(朗读出来)的过程,相当于人类的嘴巴(和ASR是相反的)。
D)语音交互,一般英文说Speech interaction(优先于Voice interaction),但如果说产品形态的语音助手,英文是Voice Assistant。
E)非专业表达/理解:
a)认为“NLP和NLU是一样的意思”——其实,NLU是NLP的子集。
b)语音识别、语义理解,都是OK的;但说“语义识别”,虽然不能说完全错误,但有点怪(至少不常用),会让人觉得你不是特别专业。
2、语音交互-示意图2(复杂版)
这里,多了自然语言生成(Natural Language Generation,NLG)、语义表示、对话管理(Dialogue Management)等概念。后两个大家可以先不用管,只需要知道“自然语言生成”是目前NLP最前沿的研究领域就可以了。
3、语音交互-示意图3(APP交互版)
4、CUI,Conversational User Interaction,对话式交互
1)跟语音交互相比,CUI的范畴更宽泛——没有语音过程、只有文字的对话交互流程,可以称为CUI,但是不能称为“语音”交互。
2)提到CUI,很多时候会和互联网/移动互联网时代的“GUI”一起出现:GUI,Graphical User Interface,图形化交互。
二、当前技术边界
ASR、NLP、TTS等单个技术点的边界,后面几天咱们再具体分析;这里只说一个认知:
要想在APP或硬件产品中,添加语音交互体验——实现demo很容易,各方面都有API可以用【比如ASR、TTS用讯飞,NLP(聊天/知识库等)用图灵机器人。】但是,要想实现非常好的整体产品体验,距离还非常远。(这个我曾经写了一个测试的iOS的demo App,实用第三方API实现只能客服,要提前预置关键词进去)
既可能有产品feature方面的定制化需求,还有整合工程化方面的问题。可以说,如果是将这些AI技术体验仅仅当成产品的加分项,也许还可行,而一旦要将其作为产品的核心价值,特别是要实现真正好的产品体验,很多时候不得不自己去研发
三、瓶颈和机会
1、不论为了是单个技术点,还是整体体验,要想直接创造一个完美的技术架构,是不现实的。反而需要我们AI产品经理们,从实际场景的用户/客户反馈出发,倒逼技术方面的模型/算法/数据的优化。
2、场景很重要。特别要选细分场景,并且需要有对应的产品技术优化方案。
1)手机场景,几乎被行业放弃了(之前火了一阵的语音助手,被证明难以形成用户粘性),具体原因,以后专题再说。
2)车载场景,目前车内降噪的问题很大,导致整个语音交互体验不好。
3)室内-智能音箱,也是做了很多的专门优化,比如远场识别、降噪等(在后续ASR小节再说)。
3、交互标准很重要。
行业内,有的人认为,Speech interaction**语音交互**会是未来的交互标准形式;
也有人认为,CUI (Conversational User Interface) 对话交互是未来的交互标准形式;
但我个人认为,两者都有漏洞,具体原因及“什么可能是对的”,以后再专题讨论。
注:数据、算法、算力等方面,可以说是必要条件,但不是充分条件——特别是,如果希望做出2C爆款产品的话。
作者:黄钊