关联规则:
关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。
关联规则分析目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。
常用算法:
Apriori:关联规则最常用也是最经典的挖掘频繁项集的算法,其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集。
FP-Tree:针对Apriori算法的固有的多次扫描事物数据集的缺陷,提出的不产生候选频繁项集的方法。Apriori和FP-Tree都是寻找频繁项集的算法。
Eclat算法:Eclat算法是一种深度优先算法,采用垂直数据表示形式,在概念格理论的基础上利用基于前缀的等价关系将搜索空间划分为较小的子空间。
灰色关联法:分析和确定各因素之间的影响程度或是若干个子因素(子序列)对主因素(母序列)的贡献度而进行的一种分析方法。
关联规则的基本概念
事务和项集
关联规则的分析对象是事务。
事务可以理解为一种商业行为,含义极为广泛。
事务也即购物篮,在实际应用中有多种不同的理解。
关联规则和频繁项集
关联规则:形如X->Y形式的蕴含表达式,其中X和Y是不相交的。
最小支持度和最小置信度的区别
最小支持度是用户或专家定义的衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性
最小置信度是用户或专家定义的衡量置信度的一个阈值,表示关联规则的最低可靠性。
同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。
Apriori算法:
首先通过单遍扫描数据集,确定每个项的支持度。得到频繁-1项集的集合F1
使用上一次迭代发现的频繁(k-1)-项集,产生候选k-项集
为了对候选项集的支持度计数,算法需要再次扫描一遍数据集
计算候选项的支持度计数后,删去支持度数小于minsup的所有候选项集
当没有新的频繁项集产生时,算法结束
代码就不写了。。。因为没有数据