文本模型体系
现有的主流文本模型两种,文本向量模型和词向量模型。其根本在于如何用一些被切分,可量化的资源去描述一段文字或者一个词(再由词去描述文本)。
文本向量是一种传统的方式,无非是通过分词,取得各个词的权重(权重的计算方法有tf,idf,TextRank,互信息,信息熵),取出其中最重要的TOP-N来标识一篇文章,当N很小时候,那么也就是目前非常流行的博客-标签系统,当N达到一定量级时候,我们可以判定,这些词可以完全准确的标识这篇文章,那么这就是搜索引擎建立索引的思维。
而词向量模型则来自于另一种思维,词的意义不由其本身决定,而是由上下文决定。就像我们在做雅思的阅读题时,常常遇到一些完全没见过的词(我这样不喜欢背单词的人就是这样的),那么我们会去看上下文,尝试掌握这段话的大意,去猜测这个词可能是什么,实际上这么做准确率并不高,因为我们参考的只有一段文字的上下文,但是如果我们有关于这个词的相当多的语料时候,那么就可以通过取“最大可能”的一个解释。这也正是词向量模型的一个核心解决思路。
那么,下面,我们需要给自己提出几个问题,给上面两种模型挑挑刺,看能不能解决我们所想那些问题
1.语序的问题 周杰伦的父亲是谁?谁的父亲是周杰伦
2.不正确的断句的问题 乒乓球 拍卖完了,乒乓球拍 卖完了
3.组合词语义的转换问题 IE工程师(生产-营运专有名词,而不是指做IE浏览器的工程师) 即组合词问题 A + B = C 而不是 A + B = AB
4.我们经常遇到这样的描述 “我是一个做招聘网的软件工程师,做招聘模块,包括人事管理,面试邀约,薪资谈判” “我是一名招聘人事人员,专门负责招聘软件工程师,包括C,java,ruby,python等等,我对主流的软件技术都有所了解”
(我在一家做云招聘的公司“枇杷派”做简历分类器时候经常遇到这样的问题)这是一个做招聘系统的程序员,还是专门负责招聘软件工程师的HR?这个问题实际就是 核心语段只占整体文本的很小一部分,怎么做到提取核心语段
5.一词多义问题,比如NLP,可以是Natural Language Processing,也可以是Neuro-Linguistic Programming,还可以是Nonlinear Programming。
事实上第三种解释还可以通过上下文区分,而一篇用神经网络去解析自然语言的论文,你就很难区分是第一种解释还是二种解释了
先来聊聊问题1
这里实际上是一个主体是谁的问题,因此在做模型的时候,需要理解主体是谁,而直接使用上述两者模型,显然容易混淆主体,目前我已知的解决了这个问题的是百度机器人和图灵机器人,我能想到的方案也是通过依存关系去处理,不知道有没有更好的方法?
另外还有一个谓语的问题,有些情况主语谓语完全相同(小王说小李是不对的,小王打小李是不对的),但是意义的层次完全不同,有些谓语是双向的(是等系动词),有些谓语是单向的,有些指向的是一个从句,有些指向一个主体
PS:突然发现没有整理上传的随笔好多。。。