数据关联分析用于挖掘数据对象之间的关系,例如啤酒和尿布的案例

一.基本概念

通过实例认识项集,支持度,频繁项集,关联规则,置信度,强关联规则,支持度,置信度

  • 运动器的历史购买数据

TID

网球拍

网球

运动鞋

羽毛球

1

1

1

1

0

2

1

1

0

0

3

1

0

0

0

4

1

0

1

0

5

0

1

1

1

6

1

1

0

0

  • TID: 表示每一次购物单的序号
  • 0和1: 表示是否在本购物单中存在该商品

符号设置:

  • D: 交易数据库,实例中的表格
  • T: 每次交易事务,实例中一列的购买数据
  • I: 项的集和{I1,I2,…,In}

1.项集概念

项集: 在集和中,包含k个项的集和称为k项集

  • 实例如下

TID

集和

项集

1

{网球拍,网球,运动鞋}

3项集

2

{网球拍,网球}

2项集

3

{网球拍,}

1项集

4

{网球拍,运动鞋}

2项集

5

{网球,运动鞋,羽毛球}

3项集

6

{网球拍,网球}

2项集

2.关联规则

A=网球拍,B=网球
深度学习构建两类数据之间关联关系_大数据

3.支持度和置信度概念

支持度: 表示数据集D中出现项集A的概率
深度学习构建两类数据之间关联关系_深度学习构建两类数据之间关联关系_02
置信度: 表示关联规则前价出现时后价查询的概率。
深度学习构建两类数据之间关联关系_深度学习构建两类数据之间关联关系_03

  • 实例如下
    探究网球拍和网球的支持度
    x=买网球拍事务集,y=买网球事务集求p(x=>y)=p(xy)
    x=5,y=4,x∪y=3,D=6
    深度学习构建两类数据之间关联关系_大数据_04
    深度学习构建两类数据之间关联关系_大数据_05

4.频繁项集

自行数组阈值,若支持度>=阈值就是频繁项集
设阈值为=0.4
p(网球拍=》网球)支持度=0.5 是频繁
p(网球拍=》运动鞋)支持度=0.33 不是频繁

5.超项集

S1={ABC} ,S2={ABC?} ,?: 量子叠加态

  • S1中所有元素在S2中存在
  • S2可能包含S1中没有的元素

S2是S1的超项集
S1是S2的子集

6.闭频繁集

?: 量子叠加态

S1

BC

S2

ABCD

S3

BCD

S4

AD

S2是S1的超项集
S1支持度=3/4
S2支持度=1/4
S1!=S2则S1是闭项集
若S1>阈值S1是闭频繁集

7.极大频繁集

S1

BC

S2

ABCD

S3

BCD

S4

AD

阈值=0.6

  • S1的所有真超项集:S2,S3
  • S1是频繁项集,S2不是频繁项集S3不是频繁项集
  • S1是极大频繁项集。声明S1项集进一步扩展就不是频繁项集
    深度学习构建两类数据之间关联关系_数据挖掘_06

8.反单调性

若项集A是频繁项集,则其所有子集为频繁项
若项集A不是频繁项集,则A所有超项集为不频繁项集

9.APriori算法

  • 连接步:
  • 减枝步:

示例

S1

ABC

S2

BCD

S3

CE

S4

ABC

阈值=0.3

N项集

N=1

N=2

N=3

频繁项集

{A}{B}{C}{D}

{AC}{BC}

{ABC}

深度学习构建两类数据之间关联关系_频繁项集_07