首先来一个大概的定义:
监督学习:通过训练让机器自己找到特征和标签之间的联系(注:也就是学习的训练集包含输入和输出,得到了最优参数模型之后 ,新来的数据集在面对只有特征没有标签的情况下时,可以判断出标签)
无监督学习:训练数据中只有特征没有标签,输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类。(注:不一定"分类",没有训练集,旨在寻找规律性,不予以某种预先分类标签对上号为目的)
区别:
1>有无标签
2>分类,聚类(注:有监督机器学习的核心是分类,分类的同时定性,即分类分好了,标签也同时贴好了。无监督机器学习属于先聚类后定性,有点类似于批处理。只要知道如何计算相似度就可以开始工作。它的核心是聚类)
3>同维和降维(注:有监督学习通常输入是n维,特征也经常必须是n维。因此无法降维,而无监督经常要参与深度学习,做特征提取,或者干脆采用层聚类或者项聚类,以减少数据特征的维度)
4>是否独立(注:不管训练样本(有监督),还是待分类的数据(无监督),并不是所有数据都是相互独立分布的。或者说,数据和数据的分布之间存在联系。作为训练样本,大的偏移很可能会给分类器带来很大的噪声,而对于无监督,情况就会好很多。可见,独立分布数据更适合有监督,非独立数据更适合无监督。)
5>不透明,可解释 性(注:有监督算法的分类原因是不具有可解释性的,或者说,是不透明的,因为这些规则都是通过人为建模得出,及其并不能自行产生规则。所以,对于像反洗钱这种需要明确规则的场景,就很难应用。而无监督的聚类方式通常是有很好的解释性的,你问无监督,为什么把他们分成一类?无监督会告诉你,他们有多少特征有多少的一致性,所以才被聚成一组。)
6>扩展性(注:DataVisor开发的无监督算法,具有极强的扩展性,无论多加的这一维数据的权重有多高,都不影响原来的结果输出)
如何选择: