前 言
机器学习是近二十来年兴起的多领域学科,机器学习算法可从数据中建立模型,并利用模型对未知数据进行预测。机器学习技术不断进步,应用相当广泛,例如推荐引擎、定向广告、需求预测、垃圾邮件过滤、医学诊断、自然语言处理、搜索引擎、诈骗侦测、证券分析、视觉辨识、语音识别、手写识别等。
近年来Google、Facebook、Microsoft、IBM等大公司全力投入机器学习研究与应用。以Google 为例,Google 已经将机器学习运用到垃圾邮件判断、自动回复、照片分类与搜索、翻译、语音识别等功能上。同时,各大主流Hadoop发行版公司加强了对机器学习的投入,比如Cloudera对spark ml的完整支持、星环科技基于Spark自主研发的机器学习产品Discover。在不知不觉中,机器学习已经让日常生活更为便利。
为什么近年来机器学习变得如此热门,各大公司都争相投入?因为机器学习需要大量数据进行训练。大数据的兴起带来了大量的数据以及可存储大量数据的分布式存储技术,例如Hadoop HDFS、NoSQL……还有分布式计算可进行大量运算,例如 Spark 基于内存的分布式计算框架/架构,可以大幅提升性能。
本书的主题是Python+Spark+Hadoop 机器学习与大数据分析。使用Python 开发Spark 应用程序,具有多重优势:不仅可以享有Python 语言特性所带来的好处,即程序代码简明、较易学习、高生产力等,再加上Spark 基于内存的分布式计算框架/架构,还可以大幅提升性能,非常适合需要多次重复运算的机器学习算法,并且Spark 还可以存取 Hadoop HDFS 分布式存储的大量数据。
本书希望能够用浅显易懂的原理介绍和说明以及上机实践操作、范例程序来降低机器学习与大数据技术的学习门槛,带领读者进入机器学习和大数据的领域。当然,整个机器学习与大数据的生态系统非常庞大,需要学习的东西很多。读者通过本书学习,对机器学习和数据有了基本的概念后就比较容易踏入这个领域了,以便深入研究其他的相关技术。
林大贵
more >