数据挖掘boosting用实例数据挖掘方法与模型

转载

mob64ca140088a9 2023-11-29 09:53:49

文章标签 数据挖掘boosting用实例大数据数据挖掘决策树北京语言大学 文章分类 数据挖掘人工智能

挖掘模式

特征化与区分

用汇总的、简洁的，精确的表达方式描述某个类
数据特征化：是模板数据的一般特征或特征的汇总
数据区分：是将目录数据对象的一般特性与一个或多个对比类对象的一般特征进行比较

频繁模式、关联和相关性

频繁模式：在数据中频繁出现的模式
频繁项集：在事务数据中一起出现的商品集合
挖掘模式中的关联和相关性

用于预测分析的分类和回归

基于训练实例构造模型
描述和区分未来预测的类和概念
预测未知类标签
典型的方法：决策树、贝叶斯分类、支持向量机、神经网络、logistic回归、基于规则的分类、基于模式的分类

数值类型，进行回归？

聚类分析

无监督学习（即类标签未知）、无指导学习
组数据以形成新的类别（即集群），例如集群类以找到分发模式
原则：最大化类内相似性和最小化类间相似性

进行群的划分。找到相似性

离群点分析

离群值：不符合数据一般行为的数据对象
噪音或异常？一个人的垃圾可能是另一个人的财富
方法:采用聚类分析或回归分析的方法
有用的欺诈检查，稀有事件分析

决策树

决策树是一种有指导学习的常用结构。大量的论文都写到决策树的解决现实世界问题的成功应用。

C4.5

4.5中用于创建决策树的算法思想

1、建立决策树的算法

决策树的创建仅仅使用最能区分所学概念的那些属性
首先，通过从训练集中选择实例的一个子集用来创建决策树
然后，算法使用这些子集构建一个决策树
剩下的训练集实例用于检测所建决策树的准确度
如果决策树能正确地对实例进行分类，该过程结束。
如果某实例的分类有误，那么该实例就被添加到所选训练实例子集中，并构建一棵新树。
该过程继续执行，直到创建了一个能正确分类所有未选实例的树，或者由整个训练集建立了这个决策树。
这里给出了该算法的简化版本，它使用整个训练实例集来创建决策树。算法步骤如下

2、步骤

假设T为训练实例集。
选择一个最能区别T中实例的属性。
创建一个树结点，它的值为所选择的属性1. 创建该结点的子链，每个子链代表所选属性的一个惟一值。使用子链的值，进一步将实例细分为子类。
对于步骤3所创建的每个子类：

如果子类中的实例满足预定义的标准，或者，如果树的这条路径的剩余可选属性集为空,为沿此决策路径的新实例指定类别。
如果子类不满足预定义的标准并且至少一个属性能进一步细分树的路径，设T为当前子类实例集合，返回步骤2。

在将算法应用到一组数据之前，应该先进行属性选取(算法步骤2)。属性选择对建立决策树的大小很重要。其中一个主要目标是使得树的层次和结点数最小，从而使数据概化最大化。

3、示例

将寿险促销设为输出属性，开发一个预测模型。因此，输入属性限制为收入范围、信用卡保险、性别和年龄。下表给出了训练数据。

首先选第一个输入属性以最好地划分训练数据实例。逐个考虑各种可能性。

Income Range 1	Life Ins Promotion	Credit Card Insurance	Sex	Age
40-50,000	No	No	Male	45
30-40,000	Yes	No	Female	40
40-50,000	No	No	Male	42
30-40,000	Yes	Yes	Male	43
50-60,000	Yes	No	Female	38
20-30,000	No	No	Female	55
30-40,000	Yes	Yes	Male	35
20-30,000	No	No	Male	27
30-40,000	No	No	Male	43
30-40,000	Yes	No	Female	41
40-50,000	Yes	No	Female	43
20-30,000	Yes	No	Male	29
50-60,000	Yes	No	Female	39
40-50,000	No	No	Male	55
20-30,000	Yes	Yes	Female	19

【收入范围】作为顶点的决策树

数据挖掘boosting用实例数据挖掘方法与模型_数据挖掘

将概化因子添加到准确度度量指标中的简单方法是，用训练集准确度除以添加到树中作为属性选择结果的分支总数，由此属性的选取能获得期望的更少的附加分支。将该方法应用到收入范围属性，我们用准确度值11／15除以4，得到属性收入范围的优度值约为0.183。####【信用卡保险】作为顶点的决策树

数据挖掘boosting用实例数据挖掘方法与模型_北京语言大学_02

现在考虑将 credit card insurance作为决策树顶层结点的候选项。

上图显示了算法步骤3所创建的部分树。使用刚才讨论过的同样的推理，终止这棵树的创建过程并计算部分树训练集的分类正确性。结果

训练集准确度为60%(15个中有9个正确)。用0.6除以添加到树中作为属性选择结果的分支数，得到优度值为0.30

数值类型顶点的处理方法

处理数值型数据的常用方式是对值进行排序并考虑每对值之间的二元分裂。对于我们的例子，用Y表示是，用N表示否，年龄首先排序为：

19	27	29	35	38	39	40	41	42	43	43	43	45	55	55
Y	Y	N	Y	Y	Y	Y	Y	N	Y	Y	N	N	N	N

然后，为每个可能的分裂点计算优度值。这样，每个分裂点看成是有两个值的分裂属性。对每个选择点进行此计算，简单直观的推断告诉我们，43是最好的数据分裂点之一。将life insurance promotiom=yes与age<=43 结合以及将life insurance promotiom=no与age>43结合，训练集准确度
为80%(15中有12个正确)，该属性的优度值为0.40。

####【年龄】作为顶点的决策树

数据挖掘boosting用实例数据挖掘方法与模型_数据挖掘_03