NLP目前应用于7个重要领域:
1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。
2.信息抽取:从给定文本中抽取重要信息。通俗来说就是,了解谁在什么时候、什么原因、对谁做了什么、有什么结果。
3.文本挖掘:包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的界面表达。
4.机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。
5.信息检索:对大规模的文档进行索引。
6.问答系统:对一个自然语言表达的问题,由问答系统给出一个精准的答案。
7.对话系统:系统通过一些列的对话,跟用户进行聊天、回答、完成某一项任务。
funNLP,收集很多github上的包,遂整理了一下,后续会不断更新:
https://github.com/fighting41love/funNLP
自然语言处理(NLP)一些任务的总结:
https://www.jianshu.com/p/d80b065bdcf0
项目是一个基本包.封装了大多数nlp项目中常用工具:
https://github.com/NLPchina/nlp-lang
本项目目的在于构建一个标准化的NLP处理框架,提供企业级的API,以及各种推荐实现和测试包:
https://github.com/cocolian/cocolian-nlp
中文自然语言处理工具集:
https://github.com/kidden/nlp4han
word2vec java版本的一个实现:
https://github.com/NLPchina/Word2VEC_java
Word2Vec实现了常用的词语相似度和句子相似度计算:
https://github.com/jsksxs360/Word2Vec
all kinds of text classification models and more with deep learning:
https://github.com/brightmart/text_classification
THUCTC: 一个高效的中文文本分类工具:
https://github.com/thunlp/THUCTC
****
分词
中文分词器分词效果评估对比:
https://github.com/ysc/cws_evaluation
Ansj分词:
https://github.com/NLPchina/ansj_seg
https://github.com/NLPchina/ansj_seg/tree/master/plugin
Stanford CoreNLP: A Java suite of core NLP tools:
https://github.com/stanfordnlp/CoreNLP
https://github.com/kno10/CoreNLPLucene
Deta_Parser分词:
https://github.com/yaoguangluo/Deta_Parser
HanLP分词:
https://github.com/hankcs/HanLP
https://github.com/hankcs/hanlp-lucene-plugin
IK分词:
https://gitee.com/wltea/IK-Analyzer-2012FF
https://github.com/yozhao/IKAnalyzer
https://github.com/magese/ik-analyzer-solr
Jcseg分词:
https://github.com/lionsoul2014/jcseg
https://github.com/lionsoul2014/jcseg/tree/master/jcseg-analyzer
jieba分词:
https://github.com/huaban/jieba-analysis
https://github.com/yida-lxw/jieba-analysis
https://github.com/huaban/elasticsearch-analysis-jieba
https://github.com/candowu/jieba-lucene-analiysis
MMSEG分词:
https://github.com/chenlb/mmseg4j-core
https://github.com/chenlb/mmseg4j-solr
https://github.com/medcl/elasticsearch-analysis-mmseg
MYNLP分词:
https://github.com/mayabot/mynlp/
https://github.com/mayabot/mynlp/tree/283aa86b2ac7c609151297cf8c39164f38c76489/modules/mynlp-lucene
NLP4J分词:
https://emorynlp.github.io/nlp4j/
NLPIR分词:
https://github.com/NLPIR-team/nlpir-analysis-cn-ictclas
THULAC分词:
https://github.com/thunlp/THULAC-Java
https://github.com/yizhiru/thulac4j
https://github.com/dreamszl/thulac-lucene
Java分布式分词组件 - word分词:
https://github.com/ysc/word
https://github.com/ysc/word/tree/a43cea6994b8c857495e1c9d27517a8ab7356d8a/src/main/java/org/apdplat/word
****
词性标注
HanLP词性标注集:
http://www.hankcs.com/nlp/part-of-speech-tagging.html#h2-8
MyNLP采用的词性标注集:
https://github.com/mayabot/mynlp/wiki/POS#%E8%AF%8D%E6%80%A7%E8%A1%A8
****
命名实体识别