数据挖掘期末复习

题型

  1. 选择题:单选7 + 多选7(上课认真听课) 每道3分
  2. 解答 6道 概念性:什么是数据挖掘啊之类的
  3. 计算2道-3道(高分必备) 第二章 kk计算 第三章 aprio计算 第四章 树的东西 kmeans 签名矩阵 回归
  4. 综合:作为一个数据科学家怎么解决

概要和认识数据与数据预处理

  1. 什么是大数据?
  1. Big data is a buzzword, or catch-phrase, used to describe a massive volume of both structured and unstructured data that is so large that it’s difficult to process using traditional database and software techniques.
  2. 大数据是一个流行语,用于描述大量的结构化和非结构化数据,这些数据是如此之大,以至于很难使用传统的数据库和软件技术进行处理。
  1. 大数据的特征
  1. Volume 大数量
  2. Varity 多样性
  3. Velocity 快速度
  4. Veracity 真实性
  1. 什么是数据挖掘
  1. 大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。
  1. 知识发现的流程是什么?核心?(KDD)

数据挖掘是“数据库知识发现”(Knowledge-Discovery in Databases, KDD)的分析步骤

  1. 知识发现的核心–》数据挖掘
  2. 数据清理、数据集成、数据选择、数据变换、数据挖掘、 模式评估 和知识表示
  1. 数据挖掘的四大任务
  1. 关联分析(关联规则挖掘)
  2. 聚类分析
  3. 分类/预测
  4. 孤立点(离群点)检测
  1. 数据挖掘与其他学科
  1. 好像没什么东西
  2. 学科的交叉性:机器学习、数据库、统计学、拓扑学等具有紧密的联系
    挑战:高维,大数据、数据类型、参数、数据演化性和数据隐私/安全性
    常见工具包/期刊、会议。

  1. 认识数据与数据预处理
  2. 数据的属性:分类型和数值型
  1. 分类型
  1. 标称(特殊:二元)
  1. eg:ID号、眼球颜色、邮政编码
  1. 序数
  1. eg:军阶、GPA、用{tall,medium,short}表示的身高
  1. 数值型
  1. 区间
  1. eg:日历、摄氏或华氏温度
  1. 比率
  1. eg:长度、计数
  1. 数据的统计特征
  1. 中心趋势度量
  1. 均值,众数,中位数,中列数(数据集的最大和最小的平均值)
  1. 数据的散度
  1. 极差、四分位数、四分位数极差,五数概括,盒图
  1. 可视化
  1. 分位数图(观察单变量数据分布)
  2. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘
  1. 中心趋势
  1. 中位数有序数据值的中间值
  2. 均值:总和/个数
  3. 中列数:数据集的最大和最小值的平均值
  4. 众数
  1. n对于非对称的单峰数据,有以下经验关系:
    mean-mode ~ 3*(mean-median)
  1. 散度:方差、极差
  1. 极差 max-min
  2. 四分位数(注意其实是三个数哦:Q1,Q2,Q3)
  3. 四分位数极差 Q3-Q1
  4. 方差
  5. 五数概括:[ min,Q1,median,Q3,max]
  1. 数据的相似性度量
  1. 标称属性数据
  1. 标称变量是二元变量的拓广,它可以取多余两种状态值,如:red,yellow,blue
  2. 相异性度量方法
  1. m:状态取值匹配的变量数目,p:变量总数
  2. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_02
  1. 标称型数据:对称和非对称
  1. 二元属性
  1. 计算二元变量的相似度
  1. 首先获取列联表
  1. 对称的二元变量的相异度计算
  1. 数据挖掘 期末复习题库 数据挖掘期末考试题目_人工智能_03
  1. 非对称的二元属性
  1. 一个值比另一个更重要
  2. 不对称的二元变量属性的相异度计算
  1. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_04
  2. 对于非对称的相似度,负匹配数目t被忽略
  1. Eg:

Name

Gender

Fever

Cough

Test-1

Test-2

Test-3

Test-4

Jack

M

1

N

P

N

N

N

Mary

F

1

N

P

N

P

N

Jim

M

1

P

N

N

N

N

  1. gender对称
  2. 其余不对称
  3. Y和P设置为1,N设置为0

Name

Gender

Fever

Cough

Test-1

Test-2

Test-3

Test-4

Jack

M

1

0

1

0

0

0

Mary

F

1

0

1

0

1

0

Jim

M

1

1

0

0

0

0

  1. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据_05
  1. 数值型:欧氏距离
  1. 使用距离来度量两个数据对象之间的相似性/相异性
  2. 闵可夫斯基数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_06
  3. 其中数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_07数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘 期末复习题库_08是两个p-维的数据对象(q正整数)
  4. q=1,d是曼哈顿距离
  5. q=2,d是欧几里德距离
  1. 数据预处理:
  2. 数据清理:缺失值 噪声
  1. 空缺值,噪声数据,删除孤立点,解决不一致性
  2. 如何处理空缺值
  1. 忽略元组
  2. 人工填写(工作量大,可行性低)
  3. 使用一个全局变量填充空缺值
  4. 使用属性的平均值填充空缺值
  5. 使用与给定元组所属同一类的所有样本的平均值
  6. 使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样预测的方法
  1. 噪声数据:一个测量变量中的随机错误或偏差
  2. 如何处理噪声数据:
  1. 分箱
  2. 聚类
  3. 回归
  1. 数据集成:相关性分析 卡方检验
  1. 集成多个数据库、数据立方体或文件
  2. 数据集成-冗余数据处理
  1. 数值型:相关分析
  1. 相关系数(皮尔逊相关系数):数据挖掘 期末复习题库 数据挖掘期末考试题目_人工智能_09
  2. n为样本个数,数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_10数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_11属性A和B上的平均值,其他分别为标准差
  3. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_12>0,A和B正相关,值越大相关程度越高
  4. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_12=0:不相关;数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_12<0,负相关
  5. 协方差:衡量两个变量的变化趋势是否一致:数据挖掘 期末复习题库 数据挖掘期末考试题目_数据_15
  6. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_16
  7. Cov(A,B)>0,A和B同时倾向于大于期望值
  8. Cov(A,B)<0,若A大于期望值,B很可能小于期望值
  9. Cov(A,B)=0,不正确
  1. 标称数据:卡方检验
  1. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘 期末复习题库_17
  2. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_18
  3. N是数据原则的个数
  4. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘 期末复习题库_19
  5. 数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_20
  6. 自由度:(c-1)*(r-1)
  7. eg:
  1. 数据规约:维度规约和数量规约
  1. 得到数据集的压缩表示,但可以得到相同或相近的结果
  2. 数据规约策略:
  1. 维规约:小波分析、PCA、特征筛选
  1. 小波变换:保存小波较大的系数进行原始数据的压缩,主要用于图像分析中
  2. PCA:找到一个投影,其能表示数据的最大变换
  3. 特征筛选:通过删除不相干的属性或维减少数据量
  1. 算法:信息增益(ID3)
  2. 信息熵:
  1. 定义:数据挖掘 期末复习题库 数据挖掘期末考试题目_数据_21
  2. 例子:数据挖掘 期末复习题库 数据挖掘期末考试题目_数据_22
  1. 条件信息熵:刻画在已知X的基础上需要多少信息来描述Y
  1. 定义:数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_23
  2. eg:
  1. 信息增益:刻画在已知X的基础上需要节约多少信息来描述Y
  1. IG(Y|X)=H(Y)-H(Y|X)
  1. 信息增益与特征筛选:
  1. 基本思想:选择那些特征对分类变量Y信息增益大,删除那些对分类无用的特征
  1. 能量规约:回归、聚类、采样、数据立方体聚集
  2. 数据压缩:使用变换
  1. 有损压缩 无损压缩
  2. 字符串压缩 音频/视频压缩
  1. 数量规约
  1. 数据变换:最大最小归一化
  1. 最小-最大规范化:数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_24
  2. z-score规范化:数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘 期末复习题库_25
  1. 数据离散化
  1. 离散化(连续数据)
  2. 概念分层(标称数据)
  3. 分箱:分箱技术递归的用于结果划分
  4. 直方图分析:直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层
  5. 聚类分析:将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点
  6. 基于信息熵的方法等