自然语言处理3——语言学资源
文章目录
- 自然语言处理3——语言学资源
- 词汇资源库
- 语料库
NLP需要大规模语言数据用于模型参数训练及评测;且NLP中知识库包括:词汇语义库、词法、句法规则库、常识库等。
词汇资源库
人读词典:格式不规范,数据完整性和一致性不好,非结构化
机读词典:
- 按信息类型分类:语法词典、语义词典、双语词典等
- 按领域分类:通用词典、专业词典、专名词典(为解决某一类任务所有的名字、地名等构成的词典)等
常用的词典资源:
- 综合型语言知识库(CLKB)
- 新华社词语数据库:语法层面的,分为中文和外文两类
- 同义词词林:语义层面的
- WordNet(词网):英文语义词典,为解决词典中同义信息的组织问题;由词集构成,一个词集表示一个概念,概念与概念之间由网络表示,同义词集合间的语义关系是对称关系。
- 知网(hownet):反映概念的共性与个性及概念之间和概念的属性之间的各种关系。用若干个不可再分的义原(DEF)描述。义原描述的是语义层面。
- 清华大学开放中文词库
语料库
定义:文本的集合,包括生语料(未经处理的语料)、熟语料(带标记),语料库是NLP的知识来源。
语料加工过程:
生语料->自动分词->语法标注->句法分析->语义语用分析->语言知识库
分类:
- 按内容构成和目的划分:
- 同质的:只收集某方面文本
- 异质的:事先没有规定和选材原则
- 系统的:充分考虑语料的动态、静态、代表性、平衡、规模等问题
- 专用的
- 按加工深度划分:
- 单语语料库:切分;具有词性标注、句法结构信息标注、语义信息标注
- 双语/多语语料库:篇章对齐;段落对齐;句子对齐;短语对齐;词对齐
- 平衡语料库:事先看一下各类语料的先验概率是多少(即在现实世界中的比例),那么语料库中各类的比例也要差不多
- 平行语料库:多种语言的对齐文本
研究:
- 收集:建设平衡语料库
- 加工:标注;标注技术:分词、词性标注、句法标注、语义标注等
- 统计:目的:判断加工出的语料库在规模上、质量上是否好;便于构建模型
- 齐普夫定律:非常常用的词很少,中频词数量中等,大量低频词
- 模型化
语料库功能的决定因素:
决定因素 | 规模 | 分布 | 加工深度 |
对应 | 可靠性 | 适用范围 | 能提供什么样的知识 |
英文语料库:
- Brown语料库:世界上第一个根据系统性原则采集样本的标准语料库,将每个词打上不同的标签
- 宾州树库:2000年完成第一版中文树库;树库:即给定一个句子,构建出句法分析树
- UPenn语篇树库:宾州树库的扩展,标注的是语篇结构信息,即句子和句子之间的关系,如转折、递进等。
中文语料库:
- 中国中文语言资源联盟
- 北京大学语料库:较实用
- 台湾中研院平衡语料库(Sinica):第一个带有完整词类标记的汉语平衡语料库,采样时以自然段落为准,不看文章长度;语料采样多重分类法
注:此处只列举了部分语料库
往期文章:
自然语言处理1——NLP概述自然语言处理2——语言学基础