1、NLTK的概念

NLTK:Natural language toolkit,是一套基于python的自然语言处理工具。

2、NLTK中集成了语料与模型等的包管理器,通过在python编辑器中执行。

import nltk

nltk.download()

便会弹出下面的包管理界面,在管理器中可以下载语料,预训练的模型等。

python 中文语料训练 python与语料库_包管理

比如下载完语料库(比方说是gutenberg语料库),可以通过以下加载:

python 中文语料训练 python与语料库_包管理_02

fileids()函数可以查看gutenberg中收录的图书,words函数可以方便地得到某本书中文字