第一章:NLP简介

NLP是什么?

•NLP( Natural Language Processing ) 是 自然 语言 处理 的 简称,是研究人与
计算机交互的语言问题的一门学科。机器理解并解释人类写作与说话方式的能力。近年来,
深度学习技术在自然语言处理方面的研究和应用也取得了显著的成果。

NLP能做什么?

•NLP技术已经无处不在如:提问和回答、知识工程、语言生成、语音识别,语音合成,
自动分词,句法分析,语法纠错,关键词提取,文本分类/聚类,文本自动摘要,信息检索
(ES,Solr),信息抽取,知识图谱,机器翻译,人机对话,机器写作,情感分析,文字识
别,阅读理解,推荐系统,高考机器人等。

有没有实现这些算法通用的步骤

• 1)论文的阅读,最新算法的研究

• 2)算法的大概方向的评估训和确定

• 3)练数据收集,清洗以及数据预处理

• 4)算法实现,系统设计,参数调优,模型升级

• 5)模型效果评估与部署

1)论文的阅读,最新算法的研究

• A、顶级会议论文

• 机器学习顶级会议:NIPS, ICML, UAI, AISTATS; (期刊:JMLR, ML,Trends in ML, IEEE T-NN)

• 计算机视觉和图像识别:ICCV, CVPR, ECCV; (期刊:IEEE T-PAMI, IJCV,
IEEE T-IP)

• 人工智能:IJCAI, AAAI; (期刊AI) ACL

• B、搜索引擎(百度学术,谷歌学术,知乎,百度、谷歌、bing)

2)算法的大概方向的评估训和确定

• A、问题相似度评估

• B、情景相似度评估

• C、语言 是否可切换

• D、确定

3)数据收集,清洗以及数据预处理

• 数据收集:公司数据、网络数据、公开数据集、GAN生成数据

• 清洗:数据采样,噪声过滤,数据生成

• 数据预处理:特征化和数值化后转化为可训练的数据

4)算法实现,系统设计,参数调优,模型升级

• 算法实现:参考资料论文

• 系统设计:软件模块设计架构

• 参数调优:更改网络参数

• 模型升级:模型算法升级,错误样本再训练

5)模型效果评估与部署

• A、准确率

• B、召回率

• C、设计lib库本地调用

• D、封装成服务