第1章 气象万千 数以等观
数据分析:发现数据背后的规律
等号的重要性,建立模型
第2章所谓学习、归类而已
2.1所谓学习,归类而已(1)
ps:机器学习只是归归类?
有监督学习——分类;无监督学习——聚类,构成了机器学习的主体部分,所以,机器学习不过是归一归类。
2.2所谓学习,归类而已(2)
1.规律:某种关系结构
从系统理论的角度看,世界由系统组成,一切客观存在均可视为系统。
系统由什么组成呢?元素及其关系结构。
机器所能学习的规律/模型,或者说数据中能挖出的规律,其实质都是:某种关系结构。尤其是变量之间的关系和数据空间的结构。
机器学习存在的全部意义,只是为了寻找或表达某种关系结构
2.3所谓学习,归类而已(3)
从数据中发现某种知识/模式/模型
实事(数据)求(算法)是(模型)
机器学习三要素:算法、模型、策略
所谓的机器学习:通过算法从模型集里选出一个最贴近观察记录的模型,用来表示我们想要的关系结构
要刻画“贴近”的程度,需要一个量化标准,我们称之为策略。
机器学习,可以作为一个搜索问题,容易看出,机器学习是真正在做research
结构风险最小化策略,主要是为了提升模型的泛化能力。泛化能力一般通过测试集(而非训练集)上的性能指标来近似。
何为建模?数学选模;模型不在于构建,而在于选择。建模就好比是量体裁衣。
2.4所谓学习,归类而已(4)
1.课前习题
①归纳和演绎(科学推理的两种方法):
归纳:从特殊到一般,从特殊事实或个别事例到一般结论的逻辑推理方法。
演绎:从一般到特殊,从普遍性结论或一般性事例推导出个别性结论(大前提,小前提,结论)
机器学习主要的推理方式是归纳。似真推理,或然性推理(并不一定是完全正确的)
2.机器学习/数据挖掘是从大量的数据中归纳出(先前未知的)有用或有趣关系结构(模式、模型、知识、规律...)的过程。
3.关联规则表现为项集之间的伴随关系。
4.聚类分析的结果主要表现为数据空间的距离结构。
5.训练的过程属于归纳,而预测的过程属于演绎。
6.为了验证模型的有效性,一般都是通过试验的方法,在测试集上测试其性能。模型的验证,以观测
、实验为主,而非理论推导。
第3章 格言联璧话学习
1.数学是宇宙的语言,这个世界真正的逻辑是概率计算。
2.函数关系都不能等同于因果关系,但这无损于他们的价值
3.所有的模型都是错的(选择),但是有些是有用的。模型的评估和模型的建立同等重要。
4.没有明确的证据表明一个模型会优于另一个模型,模型的选择取决于任务情景。
5.成功的机器学习应用不是拥有最好的算法而是拥有最多的数据。
6.特征调不好,参数调到老。
7.数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
8.如何赢得机器学习的比赛?就是把别人的模型拿过来然后集成在一起。
9.数据科学家就是比计算机科学家懂更多统计学,比统计学家懂更多计算机科学的人。
10.关键在于问题而非模型,数据科学家的基本素养:业务敏感、算法老道、编程熟悉.
第4章源于数学、归于工程
机器学习的两大数学视角:概率和几何。
理论是灰色的,而工程之树常青。