内容简介 · · · · · ·
数据科学家是当下炙手可热的职业,机器学习则是他们的必备技能。机器学习在大数据分析中居于核心地位,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用且日益受到关注。
Python 是最好最热门的编程语言之一,以简单易学、应用广泛、类库强大而著称,是实现机器学习算法的首选语言。
《Python大战机器学习:数据科学家的第一个小目标》以快速上手、四分理论六分实践为出发点,讲述机器学习的算法和Python 编程实践,采用“原理笔记精华+ 算法Python 实现+ 问题实例+ 代码实战+ 运行调参”的形式展开,理论与实践结合,算法原理与编程实战并重。
《Python大战机器学习:数据科学家的第一个小目标》从内容上分为13 章分4 篇展开:第一篇:机器学习基础篇(第1~6 章),讲述机器学习的基础算法,包括线性模型、决策树、贝叶斯分类、k 近...
数据科学家是当下炙手可热的职业,机器学习则是他们的必备技能。机器学习在大数据分析中居于核心地位,在互联网、金融保险、制造业、零售业、医疗等产业领域发挥了越来越大的作用且日益受到关注。
Python 是最好最热门的编程语言之一,以简单易学、应用广泛、类库强大而著称,是实现机器学习算法的首选语言。
《Python大战机器学习:数据科学家的第一个小目标》以快速上手、四分理论六分实践为出发点,讲述机器学习的算法和Python 编程实践,采用“原理笔记精华+ 算法Python 实现+ 问题实例+ 代码实战+ 运行调参”的形式展开,理论与实践结合,算法原理与编程实战并重。
《Python大战机器学习:数据科学家的第一个小目标》从内容上分为13 章分4 篇展开:第一篇:机器学习基础篇(第1~6 章),讲述机器学习的基础算法,包括线性模型、决策树、贝叶斯分类、k 近邻法、数据降维、聚类和EM算法;第二篇:机器学习高级篇(第7~10 章),讲述经典而常用的高级机器学习算法,包括支持向量机、人工神经网络、半监督学习和集成学习;第三篇:机器学习工程篇(第11~12章),讲述机器学习工程中的实际技术,包括数据预处理,模型评估、选择与验证等;第四篇:Kaggle 实战篇(第13 章),讲述一个Kaggle 竞赛题目的实战。
《Python大战机器学习:数据科学家的第一个小目标》内容丰富、深入浅出,算法与代码双管齐下,无论你是新手还是有经验的读者,都能快速学到你想要的知识。本书可供为高等院校计算机、金融、信息、自动化及相关理工科专业的本科生或研究生使用,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。
作者简介 · · · · · ·
华校专,计算机专业硕士。毕业后曾在部队从事专业相关工作,并研读了大量专业书籍在,从操作系统底层到应用APP开发,并且仿照 C++ STL 的风格实现了各种算法(算法导论的C++实现已经放在个人的github上),目前已从部队退役,并顺利拿到了阿里的算法工程师offer。
目录 · · · · · ·
第 1章线性模型 .................................................. 2
1.1概述 2
1.2算法笔记精华 2
1.2.1普通线性回归 2
1.2.2广义线性模型 5
· · · · · · (更多)
第 1章线性模型 .................................................. 2
1.1概述 2
1.2算法笔记精华 2
1.2.1普通线性回归 2
1.2.2广义线性模型 5
1.2.3逻辑回归 5
1.2.4线性判别分析 7
1.3 Python实战 10
1.3.1线性回归模型 11
1.3.2线性回归模型的正则化 12
1.3.3逻辑回归 22
1.3.4线性判别分析 26
第 2章决策树 .................................................... 30
2.1概述 30
2.2算法笔记精华 30
2.1决策树原理 30
2.2构建决策树的 3个步骤 31
CART算法 37
2.4连续值和缺失值的处理 42
2.3 Python实战 43
2.3.1回归决策树(DecisionTreeRegressor) 43
2.3.2分类决策树(DecisionTreeClassifir) 49
2.3.3决策图 54
第 3章贝叶斯分类器.............................................. 55
3.1概述 55
3.2 算法笔记精华55
3.2.1 贝叶斯定理55
3.2.2 朴素贝叶斯法56
3.3 Python 实战59
3.3.1 高斯贝叶斯分类器(GaussianNB) 61
3.3.2 多项式贝叶斯分类器(MultinomialNB) 62
3.3.3 伯努利贝叶斯分类器(BernoulliNB) 65
3.3.4 递增式学习partial_fit 方法69
第4 章k 近邻法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1 概述70
4.2 算法笔记精华70
4.2.1 kNN 三要素70
4.2.2 k 近邻算法72
4.2.3 kd 树73
4.3 Python 实践74
第5 章数据降维. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.1 概述83
5.2 算法笔记精华83
5.2.1 维度灾难与降维83
5.2.2 主成分分析(PCA) 84
5.2.3 SVD 降维91
5.2.4 核化线性(KPCA)降维91
5.2.5 流形学习降维93
5.2.6 多维缩放(MDS)降维93
5.2.7 等度量映射(Isomap)降维96
5.2.8 局部线性嵌入(LLE) 97
5.3 Python 实战99
5.4 小结118
第6 章聚类和EM 算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.1 概述119
6.2 算法笔记精华120
6.2.1 聚类的有效性指标120
6.2.2 距离度量122
6.2.3 原型聚类123
6.2.4 密度聚类126
6.2.5层次聚类 127
6.2.6 EM算法 128
6.2.7实际中的聚类要求 136
6.3 Python实战 137
K均值聚类(KMeans) 138
3.2密度聚类(DBSCAN) 143
3.3层次聚类(AgglomerativeClustering) 146
3.4混合高斯(GaussianMixture)模型 149
6.4小结 153
第二篇机器学习高级篇 155
第 7章支持向量机 ................................................ 156
7.1概述 156
7.2算法笔记精华 157
2.1线性可分支持向量机 157
2.2线性支持向量机 162
2.3非线性支持向量机 166
2.4支持向量回归 167
SVM的优缺点 170
7.3 Python实战 170
7.3.1线性分类 SVM 171
7.3.2非线性分类 SVM 175
7.3.3线性回归 SVR 182
7.3.4非线性回归 SVR 186
第 8章人工神经网络.............................................. 192
8.1概述 192
8.2算法笔记精华 192
8.2.1感知机模型 192
8.2.2感知机学习算法 194
8.2.3神经网络 197
8.3 Python实战 205
3.1感知机学习算法的原始形式 205
3.2感知机学习算法的对偶形式 209
3.3学习率与收敛速度 212
3.4感知机与线性不可分数据集 213
3.5多层神经网络 215
8.3.6多层神经网络与线性不可分数据集 216
8.3.7多层神经网络的应用 219
第 9章半监督学习 ................................................ 225
9.1概述 225
9.2算法笔记精华 226
2.1生成式半监督学习方法 226
2.2图半监督学习 228
9.3 Python实战 234
9.4小结 243
第 10章集成学习 ................................................. 244
10.1概述 244
10.2算法笔记精华 244
10.2.1集成学习的原理及误差 244
10.2.2 Boosting算法 246
10.2.3 AdaBoost算法 246
10.2.4 AdaBoost与加法模型 252
10.2.5提升树 253
10.2.6 Bagging算法 256
10.2.7误差-分歧分解 257
10.2.8多样性增强 259
10.3 Python实战 260
10.3.1 AdaBoost 261
10.3.2 GradientTreeBoosting 272
10.3.3 RandomForest 288
10.4小结 298
第三篇机器学习工程篇 299
第 11章数据预处理............................................... 300
11.1概述 300
11.2算法笔记精华 300
11.2.1去除唯一属性 300
11.2.2处理缺失值的三种方法 301
11.2.3常见的缺失值补全方法 302
11.2.4特征编码 307
2.5数据标准化、正则化 308
2.6特征选择 310
2.7稀疏表示和字典学习 313
11.3 Python实践 316
11.3.1二元化 316
11.3.2独热码 317
11.3.3标准化 321
11.3.4正则化 325
11.3.5过滤式特征选取 326
11.3.6包裹式特征选取 330
11.3.7嵌入式特征选取 334
11.3.8学习器流水线(Pipeline) 339
11.3.9字典学习 340
第 12章模型评估、选择与验证 .................................... 345
12.1概述 345
12.2算法笔记精华 346
2.1损失函数和风险函数 346
2.2模型评估方法 348
2.3模型评估 349
2.4性能度量 350
2.5偏差方差分解 356
12.3 Python实践 357
3.1损失函数 357
3.2数据集切分 359
3.3性能度量 370
3.4参数优化 387
第四篇 Kaggle实战篇 401
第 13章 Kaggle牛刀小试 .......................................... 402
13.1 Kaggle简介 402
13.2清洗数据 403
2.1加载数据 403
2.2合并数据 406
2.3拆分数据 407
2.4去除唯一值 408
2.5数据类型转换 410
13.2.6 Data_Cleaner类 412
13.3数据预处理 415
13.3.1独热码编码 415
13.3.2归一化处理 419
13.3.3 Data_Preprocesser类 421
13.4学习曲线和验证曲线 424
13.4.1程序说明 424
13.4.2运行结果 430
13.5参数优化 433
13.6小结 435
全书符号 ........................................................... 436
· · · · · · (收起)
喜欢读"Python大战机器学习"的人也喜欢 · · · · · ·
- Python机器学习实践指南 6.5
- 机器学习 7.4
- 美团机器学习实践 7.9
- 白话大数据与机器学习 7.2
- Python机器学习基础教程 8.7
- 推荐系统实践 8.1
- 软件开发者路线图 8.4
- 决战大数据 7.2
Python大战机器学习的书评 · · · · · · ( 全部 2 条 )
> 更多书评 2篇
论坛 · · · · · ·
在这本书的论坛里发言以下书单推荐 · · · · · · ( 全部 )
- python (葡萄)
- Python 图像模式识别机器学习 (曲晓峰)
- 我的图书馆-所有-不分类 (awoziji2014)
- YY (豆友4328637)
- 20180925 (radiotoe)
谁读这本书? · · · · · ·
二手市场
· · · · · ·
- 在豆瓣转让 有72人想读,手里有一本闲着?
订阅关于Python大战机器学习的评论:
feed: rss 2.0
0 有用 kangsgo 2017-11-06 11:40:09
只是他个人笔记,推导跳跃很快,可能大牛和他自己看得懂。
6 有用 渣渣米 2017-04-07 12:18:37
本来看着目录还可以,以为有干货,但是发现书中一半的篇幅都是在介绍如何用sklearn调包,和参数介绍,而没有具体实现,另外算法的原理讲解也比较简短,感觉对于只想学会用工具的还是可以一看,机器学习方向的还是不建议阅读
0 有用 观井映天 2020-01-14 13:06:54
看了第一章,一开始感觉还不错,因为我有机器学习和python编程的基础,我喜欢这种浓缩类的。但是越往后看,越感觉垃圾。编程部分就是翻译,等于没看。 本书写作框架基本可以认为是:各种摘录
0 有用 林同学 2019-10-14 06:06:28
当做字典一样查,我比较满意这本
1 有用 吃甜食的甜品师 2017-06-19 16:48:23
同意别人的短评,看着目录还是挺吸引人,但原理方面没有李航的统计学习方法有条理,应用方面只能当做sklearn的中文翻译,不推荐。 文api看看,真正的灵活的处理
0 有用 无明 2022-04-15 15:44:29
笔记,真的不适合教学,所以可以找来电子版,自己更新一份。。
1 有用 大娜 2020-10-24 16:38:16
这是数学书吧?呵呵,尽管有哥哥给的buff加持,还是看不懂。这是写给看懂的人的情书,其中的甜蜜如同拈花微笑般另让人无法体会。我还是好好写%王者荣耀中的景观设计的五感体验%吧
0 有用 观井映天 2020-01-14 13:06:54
看了第一章,一开始感觉还不错,因为我有机器学习和python编程的基础,我喜欢这种浓缩类的。但是越往后看,越感觉垃圾。编程部分就是翻译,等于没看。 本书写作框架基本可以认为是:各种摘录
0 有用 林同学 2019-10-14 06:06:28
当做字典一样查,我比较满意这本
0 有用 p1rate 2018-12-14 03:53:46
清华的学霸好🐮,理论部分还行,实战部分全是sklearn接口有混啊😄