自然语言处理待解决的问题
多模态的融合
其实我们人是不怎么区分图片、文字、声音,因为到脑海中都会变成表述。这样类比到神经网络上,我们也可以对不同类型的信息源同等对待,同等建模,得到一个融合的信息,再基于这种信息进行编码解码,然后再生成其他媒介的东西,或者混合媒介的东西。
现在「读图」这件事更多的是图像领域的科研人员在做,NLP 领域的人很少涉足,NLP 研究人员一般是你读出来什么,表示成自然语言的形式,我再进行后续的处理。但我认为,做 NLP 的人需要了解信号是怎样输入进来的,这很重要。就自然语言来讲,在信息的感知层面,现在除传统的键盘输入外,还有语音输入、图像输入,这和我们人类观察世界的方式是一致的。人类在接受外界信号时,实际上在脑海中是形成了一系列的自然语言的表述的,从这个表述出发,我们才会想去创作。所以说,信号是如何进来的是非常重要的。
图像和语言充分衔接后,就会产生非常大的机会。比如跨媒介交流、基于图文的多媒体问答对话、搜索(直接用图片搜索或者图文混合信息搜索)。这个方向有所突破的话,对机器人领域的发展会非常有帮助。它感知对方,了解对方是什么样的人,说过什么话,机器人得到对方的一个统一的印象,就可以做出自然的表情和反应。现在机器人的多模态、人机交互是做不好的,未来可以期待一下。
通过用户画像实现个性化服务。
现在自然语言处理基本上用户画像用得非常非常少。人与人的对话,其实是对不同的人说不同的话,因为我们知道对话的人的性格、特点、知识层次,我了解了这个用户,知道用户的画像,那么在对话的时候就会有所调整。目前来讲,我们还远远不能做到这一点。
通过可解释的学习洞察人工智能机理。
现在自然语言处理跟其他的人工智能一样,都是通过一个端对端的训练,而其实里面是一个黑箱,你也不知道发生了什么,哪个东西起作用,哪个东西没有起作用。我们也在思考,有没有一种可解释的人工智能,帮助我们知道哪些地方发挥了作用,哪些地方是错的,然后进行修正,快速调整我们的系统。目前还没有针对这个问题很好的解决方案,尽管有一些视觉化的工作,但是都比较粗浅,还没有达到最精准的判定和跟踪。
通过知识与深度学习的结合提升效率。
所谓知识和深度学习的结合,有可能很多情况下是需要有人类知识的。比如说客服,是有一些常见处理过程的。那么出现问题我该怎么解决?这些知识如何跟数据巧妙结合,从而加快学习的过程、提高学习的质量,这也是比较令人关注的。
通过迁移学习实现领域自适应。
如果们想翻某一个专业领域,比如说计算机领域,可能现有的翻译工具翻得不好。所以大家都在研究,有没有一种办法,能够帮助机器进行迁移学习,能够更好的运用到语音自适应上。
通过强化学习实现自我演化。
这就是说我们自然语言系统上线之后有很多人用,得到了有很多人的反馈,包括显示的反馈、隐式的反馈,然后通过强化学习不断的提升系统。这就是系统的自我演化。
挑战
字词关系的处理
--计算机来理解字词之间的关系很困难,因为计算机需要挖掘很多词和其他词之间的关系。比如说相关词,同义词,甚至还有单词。进一步还要做同义词、反义词、近义词的关系和挖掘,然后还要跨语言,还有英文的同义词,外文的简称等等。比如计算机如何判断“中”是不是表达中华人民共和国还是表达河南方言“好”的意思?
--局部转义问题。比如说巧克力囊肿是一种常见的肿瘤名称,但是把巧克力拿出来是一个食物,在理解时它不会看到这句话把其理解为一个可以吃的东西。
--中文上下文有很多歧异地地方。比如说“我不方便”“他在方便”。中文中复杂的的歧异,这也是让计算机像人一样阅读文章时必须克服的困难。
歧义语义的理解
汉语不像英语有主动时态和被动时态,它很模糊。像“咬死了猎人的狗”,这句话一种是主语被省略了,主语可能是一只老虎、一只狗,它咬死猎人的狗,这时狗是宾语。还有一种情况狗是主语,咬死了猎人是修饰词。这两种理解方式都对,我们需要结合上下文才能理解,需要很多算法解决歧义识别问题。像章词法、句法、上下文等等。
多样化的句式结构的解析
搜索引擎经常需要处理意思一样,但是文字表达方式不一样的情况。这种情况下我们常见的处理方法叫做语义的规一划,这也是处理搜索引擎词时经常遇到的问题。他的字一样但是顺序不一样。
比如我们说“你上班了吗?”、“班你上了吗”、“你上班了吗”、“你班上了吗”意思是接近的。常见的做法是通过定位和调整主谓宾定状补等句子元素,生成句法依存树来理解句子结构。