数据值异常是指在数据集中存在一些与其他数据值相比较不符的值。这些异常值有可能是由于数据录入错误、测量偏差或者其他未知原因导致的。数据值异常对数据分析和建模的结果产生了不利的影响,因此需要进行检验和处理。
检验方法的分类
常见的数据值异常检验方法可以按照不同的分类标准进行归类,以下是其中几种分类方法:
- 基于统计学方法和机器学习方法的分类:
基于统计学方法的检验方法:Z-Score检验、Grubbs检验、Dixon检验、箱线图检验等。
基于机器学习方法的检验方法:Isolation Forest、One-Class SVM、LOF、ABOD、HBOS、COF、CBLOF等。
- 基于数据分布的分类:
基于正态分布的检验方法:Z-Score检验、Grubbs检验、Dixon检验等。
基于非正态分布的检验方法:箱线图检验、Isolation Forest、One-Class SVM、LOF、ABOD、HBOS、COF、CBLOF等。
- 基于距离和密度的分类:
基于距离的检验方法:Grubbs检验、Dixon检验、Isolation Forest等。
基于密度的检验方法:LOF、ABOD、HBOS、COF、CBLOF等。
这些方法之间存在一定的重叠和交叉,很多方法都同时具有多种分类特征。因此,在具体应用时需要综合考虑多个方面的因素来选择适合的异常检验方法。
20种数据值异常的检验方法
1. 箱线图检验
箱线图是一种可视化数据分布的方法。箱线图可以显示数据集的最小值、最大值、中位数、第一四分位数和第三四分位数。在箱线图中,任何超出1.5倍四分位距(IQR)之外的数据点都被认为是异常值。
2. Grubbs检验
Grubbs检验是一种统计方法,用于检测数据集中是否存在异常值。该方法假设数据集是正态分布的,并基于此计算出一个统计值。如果一个数据点的统计值显著大于其他数据点,则该数据点被认为是异常值。
3. Z-score检验
Z-score检验是一种基于标准差的方法,用于检测数据集中是否存在异常值。该方法首先计算出数据集的平均值和标准差,然后计算出每个数据点的Z-score。如果一个数据点的Z-score超过3,则该数据点被认为是异常值。
4. Tukey检验
Tukey检验是一种基于中位数和四分位距的方法,用于检测数据集中是否存在异常值。该方法计算出一个统计值,如果一个数据点的统计值超过了特定的阈值,则该数据点被认为是异常值。
5. Cook's距离检验
Cook's距离检验是一种用于检测数据集中是否存在异常值的方法,特别适用于多元线性回归模型。该方法计算出每个数据点对回归系数的影响程度,如果一个数据点对回归系数的影响程度显著大于其他数据点,则该数据点被认为是异常值。
6. Mahalanobis距离检验
Mahalanobis距离检验是一种用于检测多元数据集中是否存在异常值的方法。该方法基于样本的均值和协方差矩阵,计算出每个数据点与样本均值的距离。如果一个数据点的距离显著大于其他数据点,则该数据点被认为是异常值。
7. Hampel检验
Hampel检验是一种基于中位数和绝对离差的方法,用于检测数据集中是否存在异常值。该方法首先计算出数据集的中位数和绝对离差,然后计算出每个数据点与中位数的绝对差值,如果一个数据点的绝对差值超过了特定的阈值,则该数据点被认为是异常值。
8. LOF(局部离群因子)检验
LOF检验是一种基于密度的方法,用于检测数据集中是否存在离群点。该方法根据每个数据点周围的密度,计算出该数据点的局部离群因子。如果一个数据点的局部离群因子显著大于其他数据点,则该数据点被认为是离群点。
9. Isolation Forest(孤立森林)检验
Isolation Forest检验是一种基于随机森林的方法,用于检测数据集中是否存在离群点。该方法将数据集分成多个子空间,然后通过随机选择特征和阈值的方式,将子空间中的离群点逐渐分离出来。如果一个数据点在随机分离中被分离出来的次数显著高于其他数据点,则该数据点被认为是离群点。
10. HBOS(基于直方图的离群点检测)检验
HBOS检验是一种基于直方图的方法,用于检测数据集中是否存在离群点。该方法首先将数据集分成多个区间,并统计每个区间中的数据点数。然后计算每个数据点所在区间的频率,并将其作为该数据点的得分。如果一个数据点的得分显著低于其他数据点,则该数据点被认为是离群点。
11. One-class SVM(支持向量机)检验
One-class SVM检验是一种基于支持向量机的方法,用于检测数据集中是否存在离群点。该方法利用支持向量机对数据集进行建模,然后将数据集中的每个数据点作为测试数据进行预测。如果一个数据点的预测值显著低于其他数据点,则该数据点被认为是离群点。
12. Local Correlation Integral(局部相关积分)检验
Local Correlation Integral检验是一种基于局部相关性的方法,用于检测数据集中是否存在离群点。该方法首先计算出数据集中每个数据点与其他数据点之间的相关性,然后计算出每个数据点周围的局部相关性积分值。如果一个数据点的局部相关性积分值显著低于其他数据点,则该数据点被认为是离群点。
13. Ridge Regression(岭回归)检验
Ridge Regression检验是一种基于回归模型的方法,用于检测数据集中是否存在异常值。该方法使用岭回归模型对数据集进行建模,并根据模型的预测误差来检测异常值。如果一个数据点的预测误差显著高于其他数据点,则该数据点被认为是异常值。
14. Robust PCA(鲁棒主成分分析)检验
Robust PCA检验是一种基于主成分分析的方法,用于检测数据集中是否存在异常值。该方法使用鲁棒主成分分析模型对数据集进行建模,并利用模型的残差来检测异常值。如果一个数据点的残差显著大于其他数据点,则该数据点被认为是异常值。
15. MCD(Minimum Covariance Determinant)检验
MCD检验是一种基于鲁棒协方差矩阵的方法,用于检测数据集中是否存在异常值。该方法利用鲁棒协方差矩阵对数据集进行建模,并利用模型的马氏距离来检测异常值。如果一个数据点的马氏距离显著大于其他数据点,则该数据点被认为是异常值。
16. LOF(局部离群因子)检验
LOF检验是一种基于局部密度的方法,用于检测数据集中是否存在离群点。该方法首先计算每个数据点的局部密度,然后计算每个数据点相对于其邻居的局部离群因子。如果一个数据点的局部离群因子显著高于其他数据点,则该数据点被认为是离群点。
17. ABOD(Angle-based Outlier Detection)检验
ABOD检验是一种基于角度的方法,用于检测数据集中是否存在离群点。该方法首先计算每个数据点相对于其他数据点的角度,然后计算每个数据点的平均角度偏差。如果一个数据点的平均角度偏差显著大于其他数据点,则该数据点被认为是离群点。
18. HBOS(Histogram-based Outlier Score)检验
HBOS检验是一种基于直方图的方法,用于检测数据集中是否存在离群点。该方法首先将数据集划分成若干个区间,然后计算每个数据点在各个区间的分布情况。最后,根据数据点的分布情况计算出其离群得分。如果一个数据点的离群得分显著高于其他数据点,则该数据点被认为是离群点。
19. COF(Connectivity-based Outlier Factor)检验
COF检验是一种基于连通性的方法,用于检测数据集中是否存在离群点。该方法首先计算每个数据点的可达距离和可达点数,然后计算每个数据点的COF得分。如果一个数据点的COF得分显著高于其他数据点,则该数据点被认为是离群点。
20. CBLOF(Clustering-based Local Outlier Factor)检验
CBLOF检验是一种基于聚类的方法,用于检测数据集中是否存在离群点。该方法首先将数据集进行聚类,然后计算每个数据点相对于其所在簇的局部离群因子。如果一个数据点的局部离群因子显著高于其他数据点,则该数据点被认为是离群点。