【提升图】
当我们创建数据挖掘模型后,得了解该模型的准确性。默认情况下,在创建挖掘结构时默认使用30%的数据做测试,使用70%的数据将用于模型定型。建模后,可以打开“挖掘准确性图表”进行验证,那这些图怎么看呢?官网解释的太官方了、太啰嗦了,看了好久才明白。理解后原来如此简单!
模型建好了,如果有多个模型,则勾选需要查看的模型。这里预测的属性是贷款用户的“回款情况”,只有 true 和 false 两个值。看提升图,首先选择挖掘模型,再选择预测值 true(表示还款,应选择有意义的值)。
接下来选择图表数据集:
使用挖掘模型测试事例:挖掘结构测试集中满足筛选条件的事例
使用挖掘结构测试事例:创建挖掘结构时定义的测试数据集,默认30%(下图)
指定其他数据集:可以自定义筛选的数据集
上图为创建挖掘结构时选择的测试数据百分比。这里选择“使用挖掘结构测试事例”。接下来点击“提升图”选项,打开提升图(此图为带有预测目标的提示图)
X轴(总体%):当前用于比较预测的预测数据集百分比。如果当前测试有10000条记录,50%则表示随机使用5000行记录。100%则表示使用全部10000条记录。
Y轴(目标总体[True]%):表示预测值的百分比。即目标true 发生的概率。
灰色线条(垂直的):可以任意放置,便于观察各线条的数值。
蓝色线条:随机推测模型,永远对角线。如选择总体 100%数据集时,数据集内回款情况为 ture 的肯定全部都包括在内。如果选择50%的数据,那么回款为ture的数量,随机概率也有50%。
绿色线条:理想模型,从图可以看出(灰色线条),总体数据中约38%回款情况是为true的。如果总体是10000条数据,那么应该有3800条数据“回款情况=true”的记录(也可以用sql统计看看)。在理想情况下,如果我们用模型预测找出3800条记录,而这3800条记录刚好完好“回款情况=true”,那就太理想了,其他记录可以不管了,只要这3800条有用的就行了。然而,理想情况几乎很难达到!
红色线条:预测发生的概率。该线条肯定是在随机线条与理想线条之间,因为我们的预测肯定是大于随机选择的,但永远无法达到理想情况。如上图,当我们选择38%的总体数据时,模型预测出这数据集中约有53%是“回款情况=true”的记录。如总体10000条数据,通过模型我选择出3800条记录,这记录中“回款情况=true”的应该有2014(3800*0.53)
当灰色线条移到某个地方的时候,还可以看到挖掘图例中的数值情况:
分数:分数越高,模型越好。可以通过分数不断优化模型,或者用来比较各个模型优劣。
目标总体:y轴中的数值
预测概率:表示包含“可能发生”事例中的客户所需的阈值。对于每个事例,模型估计每个预测的准确性并存储该值,您可以使用该值筛选或锁定目标客户。若要找到模型识别可能回款的客户,应使用查询检索“预测概率”至少为42.08% 的事例。这话什么意思呢?在提升图中,可以将灰色线条往左或右放置,就会发现,越往右,预测概率越小,越往左,预测概率越大,所以我们应该往左取总体数据来预测。往右的话,总体数据越来越大,预测就没有意义了。
提示图限制:要求预测属性为离散型
【分类矩阵】
“分类矩阵” 通过确定预测值是否与实际值匹配,将模型中的所有事例分为不同的类别。 然后会对每个类别中的所有事例进行计数,并在矩阵中显示总计。 分类矩阵是评估统计模型的标准工具,有时被称为“混淆矩阵” 。
分类矩阵是评估预测结果的重要工具,因为它使得结果更易于理解并说明错误预测的影响。通过查看此矩阵中每个单元的金额和百分比,可以快速查看模型做出准确预测的频率。
点击“分类矩阵”选项,可以看到“回款情况”的实际预测情况:
当前预测的回款情况,要么还款,要么未还款,所以该属性只有两个值。因此,第一列为预测列,预测列有两个值(true和false)。第二和第三列为实际值,因为只有 true和false ,所以只有两列实际值。
先看第一行,预测值等于false 时,实际为false(第二列)的数量为 16544,即预测值等于实际值的有 16544 个事例,为“真”的次数。第一行预测值为 false,但是实际上(第三列)却出现了true的情况,true 的事例有7357个,为“假”的数目,说明预测错了。要是7357为0的话那就表示非常准确了。同理,看看第二行预测为 True 的情况看看。
因此:
预测 | False(实际) | True(实际) |
False | 真负(True Negative)= 16544 | 假负(False Negative)= 7357 |
True | 假正(False Positive)= 3929 | 真正(True Positive)=4854 |
总体预测准确的事例数 = 16544+ 4854 = 21398 个
总体预测错误的事例数 = 7357 +3929 = 11286 个
分类矩阵限制:分类矩阵仅可与离散可预测属性结合使用
【交叉验证】
交叉验证是分析中的一个标准工具,同时也是一项重要的功能,有助于开发和优化数据挖掘模型。在创建了一个挖掘结构及其关联的挖掘模型之后,可使用交叉验证来确定该模型的有效性。交叉验证具有以下应用:
l 验证特定挖掘模型的可靠性。
l 通过一条语句评估多个模型。
l 构建多个模型,然后根据统计标识最好的模型。
创建挖掘机构时,默认使用30%的数据作为测试数据,剩下70%的数据将作为定型数据。而交叉验证将用定型数据集中所有数据(即挖掘结构中 70% 的数据)。交叉验证报告显示每个分区中使用的事例总数。
折叠计数:表示将在原始数据集中创建的折叠数或分区数。最小值是 2,这表示数据集的一半用于测试,另一半用于定型。如果使用的是会话挖掘结构,则折叠数的最大值为 10。如果挖掘结构存储在 Analysis Services 的实例中,则最大值为 256。如果将“折叠计数”设置为 1,则将在不分区的情况下使用定型集。
下图表示3个折叠。将数据集分成3份,轮流将其中2份做训练1份做验证,3次的结果的均值作为对算法精度的估计,得到的估值就是交叉验证的目的。
最大事例数:指定将用于交叉验证的最大事例数。 任一特定折叠中的事例数等于“最大事例数”值除以“折叠计数”值。如果使用 0,则源数据中的所有事例(70%的定型数据)都用于交叉验证。如果数字大于模型定型集中的事例计数,将使用所有的事例。
目标属性:预测的属性,如预测多个属性则可以选择其中一个,只能选择一个可预测列。
目标状态:键入希望建模的可预测属性的值。如1 或0 、true 或 false 等。默认值为 null,表示将测试所有状态。
目标阈值:指定一个 0 到 1 之间的值,该值指示预测概率,用于控制度量预测准确性的标准。高于此概率的预测状态被计为正确。接近1表示预测可信度越高,否则反之。默认nul,则将可能性最大的预测计为正确。状态阈值的设置将影响模型准确性的度量值。
分区索引:折叠计数设置的分区数,按顺序编号。
分区大小:最大事例数在各分区的分配情况。
测试:测试类型。分类(Classification)、可能性(Likelihood)
度量值:测量值。真正(True Positive)、假正(False Positive)、真负(True Negative)、假负(False Negative)、对数评分(Log Score)、提升(Lift)、均方根误差(Root Mean Square Error)
平均:特定度量值的分区值的平均值。
标准偏差:一个模型的所有分区中相对于特定度量值平均值的偏差的平均值。标准偏差越小,这些值偏离平均值就越少,反之亦然。对于交叉验证,此分数值越高,则意味着折叠之间的差异越大。
参考:测试和验证(数据挖掘)