1.funNLP
地址: https://github.com/fighting41love/funNLP
涉及内容包括:
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、手机号抽取、
名字推断性别、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、
词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、
汪峰歌词生成器、
职业名称词库、同义词库、反义词库、否定词库、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、
汽车品牌词库、汽车零件词库、连续英文切割、
各种中文词向量、
中文聊天语料、中文谣言数据
2.Yuan1.0
地址:https://github.com/Shawn-Inspur/Yuan-1.0
介绍:源1.0浪潮人工智能研究院发布的通用NLP预训练模型,单体模型参数量达到2457亿,超越美国OpenAI组织研发的GPT-3模型,成为全球最大规模的中文语料AI巨量模型。源1.0能够适应多种类的AI任务需求,降低针对不同应用场景的语言模型适配难度,并提升小样本学习与零样本学习场景的模型泛化应用能力。目前开源了源代码、数据集以及百亿基础模型的API服务,可以在官网https://air.inspur.com/home进行申请使用。
3.bert预训练语言模型
地址: https://github.com/google-research/bert
BERT是目前每个致力于NLP工作的工程师一定会使用的预训练语言模型,它是通过Transformer的双向编码器表征完成,是目前应用最广泛,实践效果最好,性能最佳的中英文NLP预训练模型,在无数任务和竞赛中有着出彩的表现。
4. snownlp
地址: https://github.com/isnowfy/snownlp
介绍:SnowNLP是一个基于Python写就的工具库,能相当方便处理好中文的文本内容。SnowNLP的技术框架参考了英语自然语言处理工具库TextBlob,不过SnowNLP不引用NLTK库,所有的算法都是isnowfy大神实现的。