Python数据挖掘、Python机器学习、Python深度学习的书籍买了不少本了,但真正读下来的却很少,为何?涉及高等数学,图论、离散数学等等,对我来说和天文差不多了,其实我只想做一个懂数据挖掘的人,不想研究那些深奥的理论知识。

现在数据挖掘、机器学习、深度学习、人工智能俨然已经成为后大数据时代的重要方向了,原来的数据挖掘好像已日暮西山,被机器学习替代掉了,在机器学习之上又多了个深度学习,深度学习好像更多的是基于GPU的,神经网络是深度学习中的重要一环,人工智能也就是AI,偏向于类似机器人、无人驾驶之类的应用,当然这是我肤浅的理解。看看网上怎么说吧。

数据挖掘(Data Mining),数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。(见百度)但实际上数据挖掘是通过SPSS ModelerSAS Data MiningTeradataR语言这些工具来实现。

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。(见百度)

深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。(见百度)。

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。(见百度)

呵呵,和我的粗浅认知差不多,关于数据挖掘和机器学习没太说清楚,最早的数据挖掘一般都是定义业务目标、进行业务分析和数据定义、确定样本和训练集,从数据库获取数据、进行数据清洗和整理、再进行数据探索、选择合适的算法、在数据挖掘软件中处理相关结果、对数据挖掘结果进行解读和比较、生成算法特征、再将算法代入下一期训练集数据中,进行迭代和应用。而机器学习的提法是随着大数据时代Hadoop的崛起应用而生的,能够采用分布式的算法来处理海量的数据,此外包含的算法种类更多了,线性回归、逻辑回归、K均值聚类、决策树、随机森林、PCA主成分分析、SVM支持向量机以及ANN人工神经网络等。

概念部分到此为止,后续姑且认为数据挖掘和机器学习是通用的,也不再做区分。

数据挖掘已经存在几十年了,也形成了CRISP-DM "跨行业数据挖掘标准流程"

1. 商业理解,从商业的角度了解项目需求和最终目的. 并和数据挖掘定义及结果结合起来.

2. 数据理解,即数据收集工作,数据的熟悉;数据质量评估、数据特征探索。

3. 数据准备,涵盖了从原始粗糙数据中构建最终数据集的全部工作。

4. 建模,评估不同的建模方法,评估模型将其参数将被校准为最为理想的值。

5. 评估,评估模型是否达到了企业的目标,再反复进行迭代和优化。

6. 部署,即将其发现的结果以及过程组织成为可读形式和可实施的交付物。

一般认为数据挖掘上70%的时间都用在数据清洗、转换和数据处理上了,但我认为最困难的其实是在第一步,即如何把商业理解输出为数据挖掘的定义,客户的需求都是比较模糊的,如何解读客户的需求,如何能超越客户的需求理解客户真正想要的,如何把商业理解转换成数据理解;其次困难的是评估,如何确认数据挖掘是成功的,这个成功是客户认同的,而不是算法和输出认同的;再次困难的是建模,这个建模不是指算法的选择,而是对评估模型的解读,是把数据的输出转换为用户可理解和接受的语言。

也该言归正传了,介绍一下《Python数据挖掘入门与实践》。

内容提要是这么说的“本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。”

本着“一边翻阅一边敲代码,一边敲代码一边验证,一边验证一边理解,不理解第一次就来第二次,不理解第二次就来第三次,不理解第三次就暂时搁置”的态度,学习Python数据挖掘入门与实践,权当读书笔记了。