异常点/离群点检测算法
发布时间:2018-07-24 14:45,
浏览次数:456
sklearn中关于异常检测的方法主要有两种:
1)、novelty detection:当训练数据中没有离群点,我们的目标是用训练好的模型去检测另外新发现的样本;
2)、outlier detection:当训练数据中包含离群点,模型训练时要匹配训练数据的中心样本,忽视训练样本中的其它异常点;
sklearn提供了一些机器学习方法,可用于奇异(Novelty )点或异常(Outlier)点检测,包括OneClassSVM、Isolation
Forest、Local Outlier Factor (LOF) 等。其中OneClassSVM可用于Novelty
Detection,而后两者可用于Outlier Detection。
参考
http://scikit-learn.org/stable/modules/outlier_detection.html#outlier-detection
一、OneClassSVM
1、严格地讲,OneClassSVM不是一种outlier detection方法,而是一种novelty
detection方法:它的训练集不应该掺杂异常点,因为模型可能会去匹配这些异常点。
但在数据维度很高,或者对相关数据分布没有任何假设的情况下,OneClassSVM也可以作为一种很好的outlier detection方法。
2、其实在分类问题中,当两类样本及其不平衡时,也可以将个数比例极小的那部分当做异常点来处理,从另外一种角度来完成分类任务
二、IsolationForest
孤立森林(Isolation
Forest)是另外一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或者基尼指数来选择。在建树过程中,如果一些样本很快就到达了叶子节点(即叶子到根的距离d很短),那么就被认为很有可能是异常点。因为那些路径d比较短的样本,都是因为距离主要的样本点分布中心比较远的。也就是说,可以通过计算样本在所有树中的平均路径长度来寻找异常点。
三、Local Outlier Factor(LOF)
https://github.com/wangyibo360/pylof
基于密度或距离的方法,适用于二维或高维坐标体系内异常点的判别,例如二维平面坐标或经纬度空间坐标下异常点识别
主要是通过比较每个点p和其邻域点的密度来判断该点是否为异常点,如果点p的密度越低,越可能被认定是异常点。至于密度,是通过点之间的距离来计算的,点之间距离越远,密度越低,距离越近,密度越高。
LOF通过计算一个数值score来反映一个样本的异常程度。这个数值的大致意思是:一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。比值越大于1,则该点所在位置的密度越小于其周围样本所在位置的密度,这个点就越有可能是异常点。
四、基于高斯分布的方法
如果一个对象不服从该分布,则认为他是一个异常。有单元高斯分布和多元高斯分布
参考
https://github.com/lawlite19/MachineLearning_Python/blob/master/AnomalyDetection/AnomalyDetection.py
在上、下α分位点之外的值认为是异常值,
五、如何设计选择features
异常检测算法其实就是对符合高斯分布的数据建模,如果样本不是很符合高斯分布,算法也可以很好的运行,但是如果把样本转换成高斯分布,算法的效果会更好。有时候我们会遇到样本不符合高斯分布的情况,而且偏的有点远,因此这时通常来讲我们需要对数据进行转换,让其符合高斯分布,一般可以通过对数转(log(x))进行转换。例如:
有时候我们还需要根据实际应用情况设计新的特征变量来帮助异常检测算法更好的检测离群点。