文章目录
- 基于多粒度级联孤立森林算法的异常检测模型
- 论文摘要
- 论文解决的问题
- 算法设计
- 论文创新点
基于多粒度级联孤立森林算法的异常检测模型
论文摘要
孤立森林算法是基于隔离机制的异常检测算法,存在与轴平行的局部异常点无法检测、对高维数据异常点缺乏敏感性和稳定性等问题。针对这些问题,提出了基于随机超平面的隔离机制和多粒度扫描机制。
- 随机超平面使用多个维度的线性组合简化数据模型的隔离边界,利用随机线性分类器的隔离边界能够检测更复杂的数据模式。
- 同时,多粒度扫描机制利用滑动窗口的方式进行维度子采样,每一个维度子集均训练一个森林,多个森林集成投票决策,构造层次化集成学习异常检测模型。
实验表明,改进的孤立森林算法对复杂异常数据模式有更好的稳健性,层次化集成学习模型提高了高维数据中异常检测的准确性和稳定性。
论文解决的问题
提高了高维数据的异常检测的准确率。
算法设计
- 隔离机制:多元线性组合构成多样化的随机超平面
对于原来的iForest的隔离机制,我们可以理解为通过使用与坐标轴平行的超平面对数据集进行隔离,然后选择最先被隔离出来的样本,那些样本最可能是异常样本,但是这样在高维数据的情况下,iForest会产生重叠和覆盖效应,导致决策精度降低,同时会增加iTree的高度和训练过程的时间开销,无法高效的生成iTree。
而随机超平面的隔离机制是通过构造一个不只是平行于坐标轴的超平面来对样本进行隔离,这样在分隔样本时,不仅仅可以使用平行于轴的超平面分割,也可以使用其他各种方式的超平面分割,可以很高效的产生iTree,并且具有较高的准确率。
- 图2中(a)是传统的iForest的分割数据方法,图2中(b)是随机超平面的分割数据方法。
- 算法步骤:
- 多粒度扫描采样
在原有数据集特征的基础上,通过滑动窗口,采集L个特征子集。然后再在特征子集上进行随机超平面隔离的iForest训练,生成多个森林集成投票决策,构造层次化集成学习异常检测模型。 - 如图所示,u表示原数据集的维度大小,L表示生成的多个特征子集,step表示滑动窗口采样的步长,假设用q来表示每个生成的特征子集的维度大小,原则上step<=q,不然会导致特征丢失。图中step=5,q=3,所以每次向后移动窗口,都会丢失2个特征。
算法步骤: - 层次化集成学习异常检测模型
本文首先利用多粒度扫描机制 MGS 作为特征选择过程,然后利用多维度随机超平面隔离机制 MRH 对基于孤立森林 iForest 的异常检测模型进行优化,从而构建基于多粒度扫描与多维度随机超平面的孤立森林算法(MGS-MRHiForest)的层次化集成学习异常检测模型。 - 算法步骤:
集成学习的过程为:
论文创新点
- 优化了iForest算法。
- 结合集成学习的思想提高准确率。