自然语言处理NLP是计算机科学、人工智能、语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理是机器学习的应用之一,用于分析、理解和生成自然语言,它与人机交互有关,最终实现人与计算机之间更好的交流。
正是NLP在我们日常生活中呈现出越来越多的便利性,才更想对NLP背后的模型原理和具体应用进行深入的探讨,以便我们对NLP有更多的认知。查看了近些年来的相关文献,发现单独讲解NLP方面的理论文献国内外都有,单独撰写NLP任务实现的技术工具(如TensorFlow)的图书也很多,而将二者结合起来的图书,目前在国内还没有发现,学会如何利用深度学习来实现许多有意义的NLP任务。具体的代码实现(含实现过程),使用的技术框架为TensorFlow(1.8版本),编程语言为Python(3.6版本)。
《TensorFlow与自然语言处理应用》PDF+源代码+李孟全
《TensorFlow与自然语言处理应用》PDF,414页,有目录,文字可复制;配套源代码。作者: 李孟全
下载: https://pan.baidu.com/s/12iagygRiaSQ_uqINnma4Hw
提取码: shfq
《TensorFlow与自然语言处理应用》分为12章,内容包括自然语言处理基础、深度学习基础、TensorFlow、词嵌入(Word Embedding)、卷积神经网络(CNN)与句子分类、循环神经网络(RNN)、长短期记忆(LSTM)、利用LSTM实现图像字幕自动生成、情感分析、机器翻译及智能问答系统。
深度学习的优点是可以将所有文本跨度(包括文档、问题和潜在答案)转换为向量嵌入,然而基于深度学习的QA模型存在许多挑战。例如,现有的神经网络(RNN和CNN)仍然不能精确地捕获给定问题的语义含义,特别是对于文档,主题或逻辑结构不能通过神经网络容易地建模,并且在知识库中嵌入项目仍然没有有效的方法,以及QA中的推理过程很难通过向量之间的简单数值运算来建模。这些问题是质量保证任务面临的主要挑战,未来应引起更多的关注。
学习Python自然语言处理旨在回答三个问题:第一个,什么是自然语言处理;第二个,为什么大多数人会使用Python来开发自然语言处理应用程序;最后一个也很重要的问题,在学习自然语言处理的时候,有哪些Python相关资源可用。
雅兰·萨纳卡《Python自然语言处理》中英文PDF代码
《Python自然语言处理》中文PDF,631页,有目录,文字可复制;英文PDF,468页,有目录,文字可复制;配套源代码。作者: [印] 雅兰·萨纳卡Jalaj Thanaki,译者: 张金超 / 刘舒曼
下载: https://pan.baidu.com/s/1bTObRcW8p7Q0WA15_O-S0g
提取码: qy3k
NLP入门书籍第一书《Python自然语言处理》,比Nitin那本NLTK来得更加详细/全面适合入门,基础详细。介绍部分数学知识到NLP流程,NLP/NLU/NLG等,规则系统应用场合/机器学习/深度学习等各优缺点内容翔实附带入门代码 04/27 读第二遍,雅兰很聪明,毕业到工作时间写出这本书,全书脉络清晰/重点把握 * 体系理论:★★★★☆ : 从机器学习到深度学习差异;各个算法差异优缺点分析;从词袋到word2vec等详细分析;从规则系统到机器学习,可惜没有提及CBR等 * 组织脉络:★★★★☆ 清晰,把握侧重点,部分关键概念提及(one-hot编码等等) * 实践指导:★★★★☆:提供了详细的各种代码,第11章 提供了详细的备忘录及指导 可惜越到后面,部分代码比较随意。
《基于深度学习的自然语言处理》中文PDF+英文PDF+Yoav Goldberg
《基于深度学习的自然语言处理》中文PDF,274页,带书签目录,文字可以复制。
《基于深度学习的自然语言处理》英文PDF,282页,带书签目录,文字可以复制。
下载: https://pan.baidu.com/s/1v05L521Xr9le0IQCE7f6VA
提取码: 33ku
《基于深度学习的自然语言处理》作者: Yoav Goldberg 译者: 车万翔 / 郭江 / 张伟男 / 刘铭 ,重点介绍了神经网络模型在自然语言处理中的应用。首先介绍有监督的机器学习和前馈神经网络的基本知识,如何将机器学习方法应用在自然语言处理中,以及词向量表示(而不是符号表示)的应用,然后介绍了更多专门的神经网络结构,包括一维卷积神经网络、循环神经网络、条件生成模型和基于注意力的模型。最后也讨论了树形网络、结构化预测以及多任务学习的发展展望。
《Python自然语言处理实战核心技术与算法》PDF代码+涂铭
《Python自然语言处理实战核心技术与算法》PDF,303页,有书签目录,文字可以复制;配套源代码。作者:涂铭 / 刘祥 / 刘树春
下载: https://pan.baidu.com/s/1Jp02kwGY3HOkZw5Op5b55w
提取码: ry7e
中文自然语言处理需要使用编程工具和框架,可以利用python实现需求。自然语言处理是一门融语言学、计算机科学、数学于一体的学科,比较复杂,学习门槛高。
推荐学习涂铭等编写的《Python自然语言处理实战:核心技术与算法》,重点探讨中文的自然语言处理,以Python及其相关框架为工具,以实战为导向,详细讲解了自然语言处理的各种核心技术、方法论和经典算法。
《知识图谱方法实践与应用》PDF+勘误PDF+王昊奋
《知识图谱方法实践与应用》PDF,481页,带书签目录,文字可复制,王昊奋,漆桂林编著;配套实践工具和相关勘误。
下载: https://pan.baidu.com/s/18R8DGiGAkHdtafYLBlTVvg
提取码: h4jm
知识图谱是较为典型的多学科交叉领域,涉及知识工程、自然语言处理、机器学习、图数据库等多个领域。本书系统地介绍知识图谱涉及的关键技术,如知识建模、关系抽取、图存储、自动推理、图谱表示学习、语义搜索、知识问答、图挖掘分析等。《知识图谱方法实践与应用》尝试将学术前沿和实战结合,在掌握实际应用能力的同时对前沿技术发展有所了解。
《Python文本分析》中文PDF+英文PDF+源代码
《Python文本分析》中文PDF,285页,文字可以复制。《Python文本分析》英文PDF,397页,文字可以复制。配套源代码。作者: [印] 迪潘简·撒卡尔
下载: https://pan.baidu.com/s/1s30LJMsOJyk6sdHatqqVOQ
提取码: tyn2
《Python文本分析》遵循结构化和综合性的方法,介绍了文本和语言语法、结构和语义的基础概念和高级概念。从自然语言和Python的基础开始,进而学习先进的分析理念和机器学习概念。
全面提供了自然语言处理(NLP)和文本分析的主要概念和技术。包含了丰富的真实案例实现技术,例如构建分类新闻文章的文本分类系统,使用主题建模和文本摘要分析app或游戏评论,进行热门电影概要的聚类分析和电影评论的情感分析。介绍了基于Python和流行NLP开源库和文本分析实用工具,如自然语言工具包nltk、gensim、scikit-learn、spaCy和Pattern。
《驾驭文本:文本的发现组织和处理》中文PDF+英文PDF+源代码
《驾驭文本:文本的发现组织和处理》中文PDF,342页,带书签目录,文字可以复制。
《驾驭文本:文本的发现组织和处理》英文PDF,322页,带书签目录,文字可以复制。
配套源代码。
下载: https://pan.baidu.com/s/1Uarrs6bt4z7xvEdHWefXzA
提取码: t4eh
文本处理是目前互联网内容应用(如搜索引擎、推荐引擎)的关键技术。本书涵盖了文本处理概念和技术的多个方面,包括文本预处理、搜索、字符串匹配、信息抽取、命名实体识别、分类、聚类、标签生成、摘要、问答等。《驾驭文本:文本的发现组织和处理》的特点在于通过实例来理解文本处理的这些概念和技术,读者利用现有的开源工具就可以自己实现这些实例。
《面向机器学习的自然语言标注》中文PDF+英文PDF
《面向机器学习的自然语言标注》中文PDF,312页,文字可复制,带书签;英文PDF,343页,文字可复制,带书签。
下载: https://pan.baidu.com/s/1IRLfBleM1vN3X_XFCAR6iA
提取码: ct2m
《面向机器学习的自然语言标注》内容全面、详略得当,结合实例讲解,更易理解。数据标注实际上是在定义问题,这才是难点,挺有意思,了解了一些标注的方法和数据集,开阔眼界,较全面的NLP机器标注。
《自然语言处理理论与实战》PDF代码+唐聃
《自然语言处理理论与实战》PDF,362页,带目录,文字可复制;配套源代码。唐聃等著。
下载: https://pan.baidu.com/s/1myY9s4LiDblxLf-7ZqEtJA
提取码: g8u6
《自然语言处理理论与实战》经过科学调研分析,选择以理论结合实例的方式将内容呈现出来。其中涉及开发工具、Python语言、线性代数、概率论、统计学、语言学等工程上常用的知识介绍,然后介绍自然语言处理的核心理论和案例解析,最后通过几个综合性的例子完成自然语言处理的学习和深入。
《自然语言处理实践聊天机器人技术原理与应用》PDF+王昊奋
《自然语言处理实践聊天机器人技术原理与应用》PDF,198页,带书签目录,文字可以复制。
作者: 王昊奋 等
下载: https://pan.baidu.com/s/1A9erGTD1SW3RgnzW13hOxw
提取码: 4j3f
学习自然语言处理的目的是将其应用到智能问答或者评论处理等问题中。最近正在做对话系统这块,学习了《自然语言处理实践聊天机器人技术原理与应用》,整体感觉不错,很有启发,可以系统地对这块领域做一个了解,作为一本参考书放着挺好的,算是做工作的一中习惯了,系统性强了实战就弱了,工程化还得靠自己亲自操刀,按照参考书中的大纲逐个击破技术点即可。
《自然语言处理综论第2版》中文PDF+英文PDF+Jurafsky+冯志伟
《自然语言处理综论第2版》中文PDF,827页,有目录书签,文字可以复制。《自然语言处理综论第2版》英文PDF,1044页,有目录书签,文字可以复制。作者: Daniel Jurafsky(D. 朱夫斯凯) / James H. Martin(J. H. 马丁)
译者: 冯志伟
下载: https://pan.baidu.com/s/1MH0iUDqg9VBalojg-IEXlw
提取码: 7cnh
《自然语言处理综论第2版》对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面的内容。《自然语言处理综论第2版》覆盖全面,强调实用,注重评测,语料为本。
随着互联网行业的高速发展,人们获取信息的方式越来越多,从主动获取信息逐渐变为被动接收信息,信息量也呈爆发式增长。因此,人们已经从信息匮乏时代进入信息“过载”时代。人们对信息获取的有效性和针对性的需求随之出现,推荐系统也应运而生。推荐系统就是互联网时代的一种信息检索工具,推荐系统的任务就是连接用户和信息,创造价值。
推荐系统从20世纪90年代开始出现,逐渐成为一门独立的学科,并且在学术界和工业界应用中都取得了诸多成果。《推荐系统算法实践》主要讲解目前学术界和工业界的一些主流、常用的推荐方法和工具。
首先从基础开始,介绍数学基础、具体的推荐系统,以及常用的推荐算法工具,包括目前主流的工具Sklearn、Spark MLlib、TensorFlow,并且介绍效率提升工具Zeppelin Notebook和Jupyter Notebook。
《推荐系统算法实践》PDF+源代码+黄美灵
《推荐系统算法实践》PDF,290页,带书签目录,文字可以复制,黄美灵著,配套源代码。
下载: https://pan.baidu.com/s/1Fa3ilB-SQJ8MWAyyCYSoCg
提取码: nx39
书中涉及理论的部分,表述的感觉可以让没什么数学基础的人能够看懂,针对数学薄弱的工程师还是有益的。
《推荐系统算法实践》主要讲解推荐系统中的召回算法和排序算法,以及各个算法在主流工具Sklearn、Spark、TensorFlow等中的实现和应用。《推荐系统算法实践》中本着循序渐进的原则进行讲解。首先,介绍推荐系统中推荐算法的数学基础,推荐算法的平台、工具基础,以及具体的推荐系统。其次,讲解推荐系统中的召回算法,主要包括基于行为相似的协同过滤召回和基于内容相似的Word2vec召回,并且介绍其在Spark、TensorFlow主流工具中的实现与应用。再次,讲解推荐系统中的排序算法,包括线性模型、树模型和深度学习模型,分别介绍逻辑回归、FM、决策树、随机森林、GBDT、GBDT+LR、集成学习、深度森林、DNN、Wide & Deep、DeepFM、YouTube推荐等模型的原理,以及其在Sklearn、Spark、TensorFlow主流工具中的实现与应用。最后,介绍推荐算法的4个实践案例,帮助进行工程实践和应用,并且介绍如何在Notebook上进行代码开发和算法调试,以帮助提升工作效率。