一、ICTCLAS的介绍 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。 二、开始使用ICTCLAS进行分词 1.下载ictclasj 首先到ictclas的网站下载JAVA版本的ictclas——ictclasj。 下载地址 :http://ictclas.org/Down_OpenSrc.asp 2.在Eclipse中 新建项目并进行 配置 首先把 ictclasj解压缩,然后把 Data文件夹整个拷贝到 Eclipse项目的文件夹下, 而 bin目录下的 org文件夹整个拷贝到你 Eclipse项目的 bin目录下,把src目录下的org文件夹整个拷贝到 Eclipse项目 的src目录下。 3.测试分词结果
就是这样,我们可以得到输出的结果,并且带有词性的标注。 分词结果: 三、关于可能出现的错误 1.越界错误 在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句 if(wis != null) 否则有时会报出越界错误 2. “org.apache” 这个新建的测试类可能会提示错误:"The import org.apache cannot be resolved",这是由于系统需要一个Apache的commons的jar包。 |
附件中有 commons-lang-2.4.jar和停用词表(stopwords.rar)下载 。