中科院中文分词工具ICTCLAS30进行名实体识别的方法
原创
©著作权归作者所有:来自51CTO博客作者isping的原创作品,请联系作者获取转载授权,否则将追究法律责任
使用中科院的分词工具ICTCLAS30可以进行名实体识别,方法也很简单就是在分词时候同时进行词性标注,然后把代表人名、地名、时间名、数量的提取出来。
例如:
最近/t 不/d 知道/v 怎么/ryv 的/ude1 ,/wd 脑子/n 总是/d 不/d 好使/a ,/wd 突然/ad 发现/v 最近/t 是/vshi 心/n 、/wn 脑/n 、/wn 人/n 分离/vi 了/y ,/wd 心里/s 感觉/n 的/ude1 ,/wd 脑子/n 里/f 想/v 的/ude1 跟/p 自己/rr 做/v 的/ude1 完全/ad 就/d 不/d 一致/a 。/wj 沈平/nr ,/wd 2009年/t 2010年/t
则把“最近/t ”,沈平/nr ,2009年/t 2010年/t 提取出来即可,只要加个判断是否是如下的词性,如果是即为名实体。
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
t 时间词
s 处所词
同时该工具还具有提取关键字并计算关键词权重的功能,至于具体的权重计算公式目前还没有搞清楚。
上一篇:人生若只如初见

提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Java 中科院分词系统 java中文分词算法
《NLP-双向匹配中文分词(Java实现)》;摘要:平台使用Netbeans搭载JDK1.8环境编程。实现MM算法及RMM算法并集成于一个窗体平台(如下图)。字典使用ChineseDic.txt; &nbs
Java 中科院分词系统 自然语言处理 NLP 双向匹配中文分词 正向最大匹配法