第一章

大数据    4V
Velocity very-large 

数据挖掘
从海量数据中挖掘出令人感兴趣的、有价值的信息

数据挖掘的任务
关联规则、分类、聚类、离群点检测

知识发现流程
数据挖掘——核心

数据挖掘与其他学科的关系
数据库、数学、物理

第二章

属性分类:分类、数值
数据的统计描述:
中心性:均值、中位数、中列数、众数
散度:极小/大值、方差、标准差、百分位数

相似性度量
标称型:Jaccard距离
数值型:曼哈顿距离、欧几里得距离、马氏距离、相关系数、KL散度

数据预处理步骤
1.数据清理(缺失值、噪声)
2.数据集成
冗余分析(标称(离散):卡方检验,数值(连续):相关分析)
3.数据归约
维度归约:PCA、小波、特征筛选
数量归约:采样、聚类
4.数据变换(处理量纲不一致问题)
最小最大归一化X`=(X-Xmin)/(Xmax-Xmin)
Z-ScoreX`=(X- _X_ )/sigma

## 第三章 关联规则

基本定义
什么是关联规则
最小支持度、置信度

Apriori算法
基本思想(子集/超集的频繁/非频繁关系)
流程
计算(可能存在逆关系)

提高Apriori的方法

FP-Growth算法
与Apriori的区别:
Apriori:产生候选项->测试
FP-Growth:生成FP树,然后在FP树上直接寻找频繁项

支持度+置信度+提升度(兴趣因子)

## 第四章 分类

生成模型/判别模型(区别)
生成:尝试得到X、Y的联合概率分布P(x,y)
判别:得到条件概率P(y|x)

分类/回归
离散/连续

DT(Decision Tree)
如何构建
测试属性选择准则:使得划分出的子集纯度尽量大
    信息增益(ID3)
    信息增益率(C4.5)(避免属性值过多导致的不公平选择)
    基尼指数(CART)

过拟合问题
训练数据类的条件分布与测试集不同
如何避免过拟合问题
增加样本量、去除噪声、降低模型复杂度、Train-Validation-Test(工程用验证集)、加正则项(Regulization控制模型复杂度)

DT如何避免过拟合
控制树的高度
控制DT中叶子结点对象多少
剪枝:先/后剪枝

KNN(懒惰学习)
优点:简单、易于实现,多分类问题,多标记问题,在线学习(流式学习)
缺点:类不平衡问题,K值选取,噪声敏感,运算时间

Naive Bayes
P(C|X) = P(X)*P(X|C)/P(X)
Argmax P(X)*P(X|C)
类条件独立假设
Argmax P(Ci)= P(Xk|Ci)*****k=1~n

SVM
基本思想:类的间隔最大化
优点:小样本:决策面只与支持向量相关
        高维
        泛化能力(结构风险而非经验风险)
核函数->非线性问题

BP(ANN)

集成学习
准则:每个基分类器足够好,多样性
三个策略:
    Bagging基本思想(Random Forest)
    Boosting基本思想(AdaBoost)
    Starking

分类评估
精度、召回率
类不平衡:sensitivity、specificity

## 第五章 聚类及离群点检测

什么是聚类
聚类的分类(划分、层次、网格、密度)

K-Means原理及计算

DBSCAN
优点:任意形状簇、对噪声鲁棒、不需要设置K值
缺点:Minpts/e

什么是离群点及分类

局部离群点LOF算法

## 第六章

Hash技术
MinHash->如何计算签名矩阵
LSH(Local Sensitive Hash)->把输入矩阵划分为k个Band,若相似,则至少有一个Band?

数据流
挑战:单次扫描,低时间复杂度,低空间复杂度,概念漂移P(C|X)改变

如何检测概念漂移
基于分布
基于错误率

分类
CVDT(Hoefdig Band)
Syncstvemn

聚类
在线抽象数据(微簇、CF(Cluster Feature))
线下聚类:DBSCAN、K-Means

大数据平台
什么是Hadoop
Hadoop生态:HDFS、MapReduce
MapReduce的缺点
Spark(什么是)
Spark与MapReduce的对比:
    MapReduce适合单轮迭代,Spark适合多轮迭代
    MapReduce共享机制不好
    Spark扩展了RDD
    Spark有丰富的API