在本文中,我列出了当今最常用的 NLP 库,并对它们进行了简要说明。它们在不同的用例中各有优缺点,因此它们都可以作为专门从事 NLP 的优秀数据科学家的丰富知识。
每个库的描述都是从它们的GitHub存储库中提取的。
顶级 NLP 库
这是顶级库的列表,按 GitHub 星数排序。
Hugging Face Transformers
- 57.1k GitHub 星数。
- Transformers 提供了数以千计的预训练模型来执行不同模态的任务,例如文本、视觉和音频。这些模型可应用于文本(文本分类、信息提取、问答、摘要、翻译、文本生成,超过 100 种语言)、图像(图像分类、对象检测和分割)和音频(语音识别和音频分类) ). Transformer 模型还可以结合多种模式执行任务,例如表格问答、光学字符识别、从扫描文档中提取信息、视频分类和视觉问答。
- 目前已更新。
spaCy
- 22.2k GitHub 星数。
- spaCy 是一个免费的开源库,用于 Python 和 Cython 中的自然语言处理。它建立在最新研究的基础上,从一开始就设计用于生产环境。spaCy 带有预训练的管道,目前支持 60 多种语言的标记化和训练。它具有最先进的速度和神经网络模型,用于标记、解析、命名实体识别、文本分类、使用 BERT 等预训练转换器进行多任务学习,以及生产就绪训练系统和简单模型打包、部署和工作流管理。spaCy 是商业开源软件,在 MIT 许可下发布。
- 目前已更新。
Fairseq
- 15.1k GitHub 星数。
- Fairseq 是一个序列建模工具包,允许研究人员和开发人员为翻译、摘要、语言建模和其他文本生成任务训练自定义模型。它提供了各种序列建模论文的参考实现。
- 目前已更新。
Jina
- 13.9k GitHub 星数
- Jina 是一个神经搜索框架,可在几分钟内构建最先进且可扩展的神经搜索应用程序。Jina 允许构建用于索引、查询、理解多/跨模态数据(例如视频、图像、文本、音频、源代码、PDF)的解决方案。
- 目前已更新。
Gensim
- 12.8k GitHub 星数。
- Gensim 是一个用于主题建模、文档索引和大型语料库相似性检索的 Python 库。目标受众是 NLP 和信息检索 (IR) 社区。Gensim 具有流行算法的高效多核实现,例如在线潜在语义分析 (LSA/LSI/SVD)、潜在狄利克雷分配 (LDA)、随机投影 (RP)、分层狄利克雷过程 (HDP) 或 word2vec 深度学习。
- 目前已更新。
Flair
- 11.2k GitHub 星数。
- Flair 是一个强大的 NLP 库。Flair 允许您将最先进的 NLP 模型应用于您的文本,例如命名实体识别 (NER)、词性标注 (PoS)、对生物医学数据的特殊支持、语义消歧和分类,支持对于数量迅速增加的语言。Flair 具有简单的界面,允许您使用和组合不同的单词和文档嵌入,包括 Flair 嵌入、BERT 嵌入和 ELMo 嵌入。该框架直接构建在 PyTorch 上,可以轻松训练您自己的模型并使用 Flair 嵌入和类试验新方法。
- 目前已更新。
AllenNLP
- 10.8k GitHub 星数。
- 一个基于 PyTorch 构建的 Apache 2.0 NLP 研究库,用于在各种语言任务上开发最先进的深度学习模型。它提供了广泛的现有模型实现集合,这些模型实现具有良好的文档记录和高标准设计,使它们成为进一步研究的重要基础。AllenNLP 提供了一种高级配置语言来实现 NLP 中的许多常见方法,例如 transformer 实验、多任务训练、视觉+语言任务、公平性和可解释性。这允许纯粹通过配置对广泛的任务进行实验,因此您可以专注于研究中的重要问题。
- 目前已更新。
NLTK
- 10.4k GitHub 星数
- NLTK——自然语言工具包——是一套支持自然语言处理研究和开发的开源 Python 模块、数据集和教程。它为超过 50 个语料库和词汇资源(如 WordNet)提供易于使用的界面,以及一套用于分类、标记化、词干提取、标记、解析和语义推理的文本处理库,以及工业级 NLP 库的包装器。
- 目前已更新。
CoreNLP
- 8.3k GitHub 星数。
- Stanford CoreNLP 提供了一套用 Java 编写的自然语言分析工具。它可以采用原始人类语言文本输入并给出单词的基本形式、词性、是否是公司名称、人名等,规范化和解释日期、时间和数字数量,标记句子结构在短语或单词依存关系方面,并指出哪些名词短语指代相同的实体。
- 目前已更新。
Pattern
- 8.1k GitHub 星数。
- Pattern 是 Python 的 Web 挖掘模块。它具有用于数据挖掘的工具:Web 服务(Google、Twitter、Wikipedia)、Web 爬虫和 HTML DOM 解析器。它有几个自然语言处理模型:词性标注器、n-gram 搜索、情感分析和 WordNet。它实现了机器学习模型:向量空间模型、聚类、分类(KNN、SVM、感知器)。模式也可用于网络分析:图形中心性和可视化。
- 2 年前的最后一次更新。
TextBlob
- 8k GitHub 星数。
- TextBlob 是一个用于处理文本数据的 Python 库。它提供了一个简单的 API,用于深入研究常见的自然语言处理任务,例如词性标记、名词短语提取、情感分析、分类、翻译等。TextBlob 站在 NLTK 和 Pattern 的巨人肩膀上,可以很好地与两者配合使用。
- 目前已更新。
Hugging Face Tokenizers
- 5.2k GitHub 星数。
- 这个库提供了当今最常用的分词器的实现,重点是性能和多功能性。
- 目前已更新。
Haystack
- 3.8k GitHub 星数。
- Haystack 是一个端到端的框架,使您能够为不同的搜索用例构建功能强大且可用于生产的管道。无论您想执行问答还是语义文档搜索,您都可以使用 Haystack 中最先进的 NLP 模型来提供独特的搜索体验,并允许您的用户使用自然语言进行查询。Haystack 以模块化方式构建,因此您可以结合其他开源项目(如 Huggingface 的 Transformers、Elasticsearch 或 Milvus)的最佳技术。
- 目前已更新。
Snips NLU
- 3600 颗 GitHub 星。
- Snips NLU 是一个 Python 库,它允许从用自然语言编写的句子中提取结构化信息。每当用户使用自然语言与 AI 交互时,他们的话语都需要被翻译成机器可读的含义描述。Snips NLU 的 NLU(自然语言理解)引擎首先检测用户的意图(又名意图),然后提取查询的参数(称为槽)。
- 2 年前的最后一次更新。
NLP Architect
- 2.8k GitHub 星数。
- NLP Architect 是一个开源 Python 库,用于探索最先进的深度学习拓扑和技术,以优化自然语言处理和自然语言理解神经网络。它是一个设计灵活、易于扩展的库,允许在应用程序中轻松快速地集成 NLP 模型,并展示优化的模型。
- 目前已更新。
PyTorch-NLP
- 2k GitHub 星数。
- PyTorch-NLP 是 PyTorch NLP 的基本实用程序库。它扩展了 PyTorch,为您提供基本的文本数据处理功能。
- 目前已更新。
Polyglot
- 1.9k GitHub 星。
- Polyglot 是一种支持海量多语言应用的自然语言管道:Tokenization(165 种语言)、语言检测(196 种语言)、命名实体识别(40 种语言)、词性标注(16 种语言)、情感分析(136 种语言)、Word嵌入(137 种语言)、形态分析(135 种语言)和音译(69 种语言)。
- 最后一次更新是 3 年前。
TextAttack
- 1.8k GitHub 星数。
- TextAttack 是一个用于 NLP 中的对抗性攻击、数据增强和模型训练的 Python 框架。
- 目前已更新。
Word Forms
- 513 个 GitHub 星数。
- 单词形式可以准确地生成英语单词的所有可能形式。它可以共轭动词和复数单数名词。它可以连接词的不同部分,例如名词到形容词、形容词到副词、名词到动词等。
- 最后更新 1 年前。
Rosetta
- 420 个 GitHub 星。
- Rosetta 是一个基于 TensorFlow 的隐私保护框架。它集成了主流的隐私保护计算技术,包括密码学、联邦学习和可信执行环境。Rosetta 重用了 TensorFlow 的 API,并允许将传统的 TensorFlow 代码转换为隐私保护方式,只需进行最少的更改。
- 目前已更新。
Honorable Mentions
我在这里列出了一些数据科学库,它们并非特定于 NLP,但在 NLP 项目中经常使用。
scikit-learn
- 48.6k GitHub 星数。
- Scikit-learn(也称为 sklearn)是 Python 编程语言的免费软件机器学习库。它具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means 和 DBSCAN,旨在与 Python 数值和科学库 NumPy 和 SciPy 互操作。
- 目前已更新。
pandas
- 32.4 GitHub 星数。
- pandas 是一个 Python 包,它提供快速、灵活和富有表现力的数据结构,旨在使处理“关系”或“标记”数据既简单又直观。它的目标是成为用 Python 进行实用的、真实世界的数据分析的基本高级构建块。此外,它还有更广泛的目标,即成为任何语言中最强大、最灵活的开源数据分析/操作工具。
- 目前已更新。