说着学习机器学习,但是一直都没有真正的写一点什么,那么就从今天开始吧。
题为机器学习基础,那么这里是机器学习的一些概念及分类。(大佬请绕行)也是自己学习《Python机器学习算法》的学习笔记。
随着时代的发展,大量网络应用出现在生活中,各种智能设备出现使数据的收集变成现实,同时,计算机的计算能力得到了很大的提高,如何从大量数据中提取有价值的信息成了很重要的课题,机器学习就是这样一种能够从无序的数据中提取出有用信息的工具。
1、机器学习基础
概念
机器学习就是这样一种能够从无序的数据中提取出有用信息的工具。那么什么是机器学习?以垃圾邮件为例,垃圾邮件的检测是指能够对邮件做出判断,判断是垃圾邮件还是正常邮件。
机器学习算法的分类
根据任务的不同,可以分为:
- 监督学习(Supervised learning)
- 无监督学习(Unsupervised learning)
- 半监督学习(Semi-Supervised learning)
- 增强学习(Reinforcement Learning)
监督学习的训练数据包含了分类信息,典型的问题是分类(Classification)和回归(Regression),典型算法有Logistics Regression、BP神经网络算法和线性回归算法。
无监督学习的训练数据不包括任何类别信息。典型问题是聚类(Clustering)问题,代表算法有K-Means算法、DBSCAN算法。
半监督学习的训练数据中有一部分数据包含类别信息,同时有一部分数据不包含类别信息,是监督学习和无监督学习的融合。其算法一般是在监督学习的算法上进行扩展,使之对未标注数据建模。
2、监督学习
2.1 监督学习
监督学习中,其训练样本同时包括特征和标签信息。分类算法和回归算法是两类最重要的算法。
两者之间最主要的区别是分类算法中的标签是离散的值,而回归算法中的标签值是连续的值。
2.2监督学习流程:
上面四步是训练部分,模型->预测 则是预测部分。
2.3监督学习算法
分类问题是指通过训练数据学习一个从观测样本到离散的标签的映射,分类问题是一个监督学习问题。
典型问题:
1)垃圾邮件的分类
2)点击率预测
3)手写字识别
3、无监督学习
无监督学习与监督学习不同的是,样本中只含有特征,不包含标签信息,因此,在学习时并不知道其分类是否正确。
无监督学习流程
聚类算法是无监督学习算法中最典型的一种学习算法。
除了聚类算法,在无监督学习中,还有一类重要的算法是降维的算法。数据降维基本原理:将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个原数据集紧致的低维表示。
4、推荐系统和深度学习
4.1 推荐系统
在推荐系统中,常用的推荐算法主要有:协同过滤算法、基于矩阵分解的推荐算法和基于图的推荐算法。
4.2 深度学习
常用的几种模型:
1)自编码模型,通过堆叠自编码器构建深层网络
2)卷积神经网络模型,通过卷积层与采样层的不断交替构建深层网络
3)循环神经网络
参考书籍:
Python机器学习算法
机器学习实战