1、NLTK的概念
NLTK:Natural language toolkit,是一套基于python的自然语言处理工具。
2、NLTK中集成了语料与模型等的包管理器,通过在python编辑器中执行。
import nltk
nltk.download()
便会弹出下面的包管理界面,在管理器中可以下载语料,预训练的模型等。
比如下载完语料库(比方说是gutenberg语料库),可以通过以下加载:
fileids()函数可以查看gutenberg中收录的图书,words函数可以方便地得到某本书中文字