目录
现实问题思考
无监督学习(Unsupervised Learning)
特点、优点与应用
聚类分析(Cluster analysis)
知识巩固
拓展学习
现实问题思考
目标:以下六组图片,按照自己喜爱的方式分成两组
分组一:站着或非站着
分组二:白色或黄色
分组三:吐舌头或不吐舌头
无监督学习(Unsupervised Learning)
- 没有绝对的对错标准
- 寻找数据特征的相似性
定义:机器学习的一种方法,训练数据中不带标签,让机器自动寻找数据规律并完成任务。
归纳一下无监督学习和有监督学习两者的区别:
1. 对训练集与测试样本的使用方式不同。监督学习目的在训练集中找规律,然后对测试样本运用这种规律。而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
2. 训练样本是否有标签。有监督学习的识别的结果表现在:给待识别数据加上了标签,因此训练样本集必须由带标签的样本组成。而无监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。
3. 无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类。(这一点比监督学习方法的用途要广。如分析一堆数据的主分量,或分析数据集有什么特点都可以归于无监督学习方法的范畴) ,而有监督学习则是通过已经有的有标签的数据集去训练得到一个最优模型。
如上图,无监督学习不需要考虑颜色或形状就可以立即识别出两个类。事实上,圆点(以及三角形)确定了一个集合,不管集合内的点之间的分离程度如何,圆点所代表的集合很容易与三角形代表的集合分离开来。这就像是当理想的样本是海洋时,仅仅考虑岛屿之间的相互位置和内部联系就可以将海洋分成几个区域。
今天 ,无监督学习是人工智能领域非常重要的方法,Facebook人工智能团队首席科学家Yann LeCun认为,无监督学习是AI技术的未来,用模拟器将会提高无监督学习的效率。而谷歌首席科学家,谷歌大脑技术负责人Vincent Vanhoucke则说,半监督学习革命已经来了。
特点、优点与应用
特点:
- 数据不需要标签
- 算法不受监督信息(偏见)约束
优点:
- 降低数据采集难度,极大程度扩充样本量
- 可能发现新的数据规律、被忽略的重要信息
主要运用:聚类分析、关联规则、维度缩减
聚类分析(Cluster analysis)
把数据样本按照一定的方法分成不同的组别,这样让在同一个组别中的成员对象都有相似的一些属性
知识巩固
问题:无监督学习的一大特点是数据样本不要提前标注输出结果,思考这个特点带来的影响。