一.关联规则
关联规则是数据库和数据挖掘领域中所发明并被广泛研究的最为重要的模型。关联规则的目标是在数据项目中找出所有的并发关系,这种关系也称为关联。
1.基本概念
·关联规则的形式
设I ={i,i2,..., im}是一个项目集合,T是一个事务集合,其中每个事务t{是一个项目集合,并满足ti ∈I,一个关联规则可以表示成如下形式的蕴含关系:
X →Y,其中XcY,Y cI,且X ∩ Y = o
·关联规则强度指标
支持度和置信度是两个常用的衡量关联规则强度的指杞关联规则X→Y的支持度是数据库中包含XuY的事务占全部事务的百分比。它是概率P(Xuy),记作
support(X =Y)= P(Xu Y)。
关联规则X→Y的置信度是包含XuY的事务与包含X的事务数的比值。它是概率P(Y\X),记作
confidence(X →Y)= P(Y|X).
·频繁项集
每个属性由多个元素组成,这里的元素称为项,多个项组成的集合称为项集。如果某个项集的支持度大于或等于预先设定的最小支持度阈值,则将这个项集称为频繁项集或大项集,所有的频繁k项集组成的集合通常记为Lk。
2.关联规则挖掘算法
关联规则挖掘算法中,Apriori算法最为著名,其挖掘的过程主要包含两个阶段:第一阶段先从数据集中找出所有的频繁项集,它们的支持度大于等于最小支持度阈值。第二阶段由这些频繁项集产生关联规则,计算它们的置信度,然后保留那些置信度大于等于最小置信度阈值的关联规则。
Apriori算法中候选集合的产生(1)连接
为了找Lp,通过Lx-1与自己连接产生候选k项集的集合,该候选k项集记为Cx。 Lk-1中的两个项集l和l2可以执行连接操作lool2的条件是(l,[]表示项集中的第i个元素)(l[1]=12[1])入(l[2]=l2[2])...八 (l,[k -2]= l2[k-2])
(li[k-1]= l2[k-1])
(2)剪枝
C是Lx的超集,即它的成员可能不是频繁的,但是所有频繁的k项集都在Cx中。因此可以通过扫描数据库并计算每个k项集的支持度来得到Lx 。
为了减少计算量,可以利用Apriori性质剪枝,即如果一个k项集中包含的k -1个元素的子集不在Lk -1中,则该候选集不可能是频繁的,可以直接从Cx中删除。
Apriori 算法过程
Apriori算法的计算复杂度主要受支持度阈值、项数(维度)、事务数和事务的平均宽度影响。具体算法描述如下:输入:事务数据库D;最小支持度阈值min_sup;最小置信度阈值 min_conf 。输出:事务数据库D中的所有频繁项目集L和关联规则AR。