1.precision、recall、F1、ROC
(1)TP、TN、FP、FN
(2)precision精确率:正确预测为正的占全部预测为正的的比例
(3)recll召回率:正确预测为正的占全部实际为正的比例
(4)accuracy精准率:就是所有的预测正确(正类负类)的占总的比重
(5)F1值:越大越好:
(6)ROC
横坐标:1-Specificity,伪正类率(False positive rate,FPR,FPR=FP/(FP+TN)),预测为正但实际为负的样本占所有负例样本的比例;
纵坐标:Sensitivity,真正类率(True positive rate,TPR,TPR=TP/(TP+FN)),预测为正且实际为正的样本占所有正例样本的比例。
在一个二分类模型中,假设采用逻辑回归分类器,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.6,概率大于等于0.6的为正类,小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。
2.数据粒度
粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
3.OLAP\OTAP\OLTP
数据库的操作:一般称为联机事务处理OLTP(On-Line Transaction Processing),针对具体的业务在数据库中的联机操作,具有数据量较少的特点,通常对少量的数据记录进行查询、修改。
数据仓库的操作:一般称为联机分析处理OLAP(On-Line Analytical Processing),针对某些主题(综合数据)的历史数据进行分析,支持管理决策。
数据仓库是支持分析决策,依赖hdfs,支持OLAP
4.特征选择算法
1)完全搜索:广度优先算法 分支限界算法 定向搜索算法 最优优先算法
2)启发式搜索:序列前向选择 序列厚向选择 双向搜索(类似于向前法 向后法 向前向后法)、增L去R、序列浮动算法、决策树算法
3)随机算法:随机产生序列选择算法 模拟退火算法 遗传算法
根据特征选择的形式,可分为三大类:
- Filter(过滤法):按照发散性或相关性对各个特征进行评分,设定阈值或者待选择特征的个数进行筛选
- Wrapper(包装法):根据目标函数(往往是预测效果评分),每次选择若干特征,或者排除若干特征
- Embedded(嵌入法):先使用某些机器学习的模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征(类似于Filter,只不过系数是通过训练得来的)
5.机器学习中的判别式模型与生成式模型
判别式模型(Discriminative Model)是直接对条件概率p(y|x;θ)建模。常见的判别式模型有线性回归模型、线性判别分析、支持向量机SVM、神经网络等。
生成式模型(Generative Model)则会对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得p(yi|x),然后选取使得p(yi|x)最大的yi。常见的生成式模型有隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、狄利克雷分布模型(Latent Dirichlet Allocation,LDA)等。
判别式模型含参,而生成式模型不含参。
6.N-gram
N-gram是一种简单有效的统计语言模型,通常n采用1-3之间的值,它们分别称为unigram、bigram和trigram。
1)unigram:
2)bigram:前一个词语“wi-1”在单词“wi”之前出现的次数)/(前一个单词“wi-1”在语料库中出现的总次数)
3)trigram:
对于bigram而言,
对于ngram来说,
7.时间序列模型总结
1)AR模型:自回归模型,是一种线性模型
2)MA模型:移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型
3)ARMA模型:自回归滑动平均模型,拟合较高阶模型
4)GARCH模型:广义回归模型,对误差的方差建模,适用于波动性的分析和预测
8.机器学习常用特征选择方法
- DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性 - MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。
相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。 - (Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。 - CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度
9.线性判别分析(LDA)与主成分分析(pca):
LDA主要考虑的是降维后各类间距离最大化,类内距离最小化,因此它的映射图中类别之间存在明显的聚集现象。
PCA作为一种无监督降维方法,主要选取样本之间差别最大的特征作为映射坐标,而并不考虑各类别间间距。