CRF进行中文分词实操
原创
©著作权归作者所有:来自51CTO博客作者mb7cd348aefc0e3的原创作品,请联系作者获取转载授权,否则将追究法律责任
在ubuntu下进行操作,自己写了个简单的预料。
我 爱 北京 天安门
天安门 上 太阳 升
伟大 领袖 毛主席
带领 我们 向 前 进
这个和CRF格式差距比较大,所以使用hanlp提供的工具首先进行转换。
from pyhanlp
import
*
CRFSegmenter
= JClass(
'com.hankcs.hanlp.model.crf.CRFSegmenter')
CRFLexicalAnalyzer
= JClass(
'com.hankcs.hanlp.model.crf.CRFLexicalAnalyzer')
segmenter
= CRFSegmenter(
None)
segmenter.convertCorpus
在ubuntu下进行操作,自己写了个简单的预料。
我 爱 北京 天安门
天安门 上 太阳 升
伟大 领袖 毛主席
带领 我们 向 前 进
这个和CRF格式差距比较大,所以使用hanlp提供的工具首先进行转换。
from pyhanlp
import
*
CRFSegmenter
= JClass(
'com.hankcs.hanlp.model.crf.CRFSegmenter')
CRFLexicalAnalyzer
= JClass(
'com.hankcs.hanlp.model.crf.CRFLexicalAnalyzer')
segmenter
= CRFSegmenter(
None)
segmenter.convertCorpus