1,箱形图的基本概念

箱形图(盒形图、盒须图)的理解

箱形图三种中Q1 Q2 Q3的计算方式

三种:数据未分组按照从下到大的顺序计算。1)index正好是整数,直接计算 ;2)index是浮点数时,按照靠近的index左右权重比计算;3)向上累计和向下累计计算。

2,分箱操作

分箱操作是一种数据预处理的方法。目的:将连续变量离散化。

无监督分箱:

(1)等距离(等宽度)分箱:将变量的取值范围分为k个等宽的区间。

L =( max-min)/K 

每个等份里面的实例数量可能不等。但是每个等份的长度相等。

(2)等频度(等深度)分箱:将变量按照从小到大的顺序排列,切分成K段。

举例子:销售记录价格排序:5,10,11,13,15,35,50,55,72,92,204,215 按照等频等深划分成四(K=4)个箱。

L = len(记录个数)/K = 12/4= 3。每段共三个数字。 [5,10,11] [13,15,35] [50,55,72],[92,204,215]  故数字15在第二个箱子中。

(3)k聚类分箱

用k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性:第一个分箱中所有观测值都要小于第二个分箱中的观测值,第二个分箱中所有观测值都要小于第三个分箱中的观测值。[笔试应该不会出现,计算太费时间]

有监督分箱:

(1)卡方分箱

(2)Best-KS分箱

分箱评估:特征进行分箱后,需要对分箱后的每组(箱)进行WOE编码或者IV信息量。


3,KMO检验

(1)简单相关系数(相关系数、线性相关系数、皮尔逊相关系数):衡量两个变量之间的线性关系。

(2)偏相关系数:有的时候X和Y之间的简单相关系数不能够很好的表示两者之间的相关性。因为Y可能受到其他因素的影响(多元回归分析中)。因此引入偏相关性系数来看变量之间的相关性。偏相关性就是:固定其他几个变量后,研究剩余两个变量之间的相关性。固定其他变量的时候,研究两个变量之间的关系,才是真的反映关系的。

(3)协方差:衡量两个变量的总体误差。

        协方差定义为: Cov(X,Y)= E[(X-EX)(Y-EY)] = EXY-E(X)E(Y)

4,偏差、方差和误差

偏差(bias)是指训练过程中,训练预测值和真实值之间的偏离关系。每一次(单个模型)迭代训练的出来的模型,都会拿训练集数据预测,偏差就反应在预测值和实际值的匹配度上。准确度为96%,则说明是低偏差;反之,如果准确度只有70%,则说明是高偏差。

模型输出的期望和真实样本标签的差值。

python实现等深分箱边界算法 请用等深分箱法_数据

方差是指在训练过程中,预测值的变化波动情况(同一批模型,在不同训练集上的情况,刻画数据扰动对模型的影响),描写的是预测值与预测均值差的平方和再求平均数。通常在深度学习训练中,初始阶段模型复杂度不高,为低方差;随着训练量加大,模型逐步拟合训练数据,复杂度开始变高,此时方差会逐渐变高。

D为不同的数据集,f(x;D)指的是在D训练集上的输出,

指的是模型f对于x的输出的期望。

python实现等深分箱边界算法 请用等深分箱法_python实现等深分箱边界算法_02

  • 低偏差,低方差:这是训练的理想模型,此时蓝色点集基本落在靶心范围内,且数据离散程度小,基本在靶心范围内;
  • 低偏差,高方差:这是深度学习面临的最大问题,过拟合了。也就是模型太贴合训练数据了,导致其泛化(或通用)能力差,若遇到测试集,则准确度下降的厉害 [模型复杂度高且太满足训练集要求];
  • 高偏差,低方差:这往往是训练的初始阶段 [训练准确率低,模型复杂度低->是一个线性函数,波动变化小];
  • 高偏差,高方差:这是训练最糟糕的情况,准确度差,数据的离散程度也差。

 模型复杂度指的是:Y= w1x+b[模型复杂度低]    y=w1x+w2x+w3x+b[模型复杂度高]

 

泛化误差:f(x;D)指的是在D训练集上的输出,和D样本所带的标签之间的误差均值。(y和yD不同,可能真实样本标签和样本标签是不一致的,体现在工作人员标注的时候搞错了) y和yD体现的是噪声。

python实现等深分箱边界算法 请用等深分箱法_数据_03

我们使用了如下的代价函数来评估泛化误差:

泛化误差 = 方差 + 偏差2 + 噪声

python实现等深分箱边界算法 请用等深分箱法_数据_04

泛化误差一般指的是模型训练的loss值,方差指的是不同训练集下,训练效果和训练输出值之间的关系。偏差是指单一模型中,模型和实际值之间的差值。噪声是样本实际值和样本标注的实际值之间的误差。一般误差都规定为服从标准正态分布。

5,混淆矩阵

假设我们要解决一个二分类问题,我们已经建立好了模型,输出为0或1,初始时阈值设为0.5,如果大于0.5则为1,否则为0。如果我们用另一个大于0.5的阈值,那么现在关于模型说法,正确的是(B

A,模型分类准确率会降低

B,模型分类的召回率会降低或者不变

C,模型分类的召回率会升高

D,模型分类的准确率会升高或者不变

由于 Recall = TP/(TP+FN) ,TP+FN= 真实样本中标签为1的数据。所以TP+FN不变。由于阈值大于0.5,则预测为1的数量会降低,那么TP+FP会降低。TP+FP降低包含三种情况:TP低;FP低;TP,FP都低;确率为 (TP+TN)/总数  总数不会变,但是TP和TN不能够直接判定为降低或者升高。TP可能降低,TN可能升高。TP可能不变,TN升高。TP,TN可能都不变。

因此选择B

6,数据缺失值敏感的模型

在下列算法中,对于缺失值敏感的模型为(A):

A. Logistic Regression(逻辑回归)   B. 随机森林    C. C4.5     D. 朴素贝叶斯

BC基于树模型,对缺失值敏感度低;D朴素贝叶斯对缺失值也比较稳定;B逻辑回归是线性模型,对缺失值敏感。

经验法则(rule of thumb)供参考:

  • 树模型对于缺失值的敏感度较低,大部分时候可以在数据有缺失时使用。
  • 涉及到距离度量(distance measurement)时,如计算两个点之间的距离,缺失数据就变得比较重要。因为涉及到“距离”这个概念,那么缺失值处理不当就会导致效果很差,如K近邻算法(KNN)和支持向量机(SVM)。
  • 线性模型的代价函数(loss function)往往涉及到距离(distance)的计算,计算预测值和真实值之间的差别,这容易导致对缺失值敏感。
  • 神经网络的鲁棒性强,对于缺失数据不是非常敏感,但一般没有那么多数据可供使用。
  • 贝叶斯模型对于缺失数据也比较稳定,数据量很小的时候首推贝叶斯模型。

总结来看,对于有缺失值的数据在经过缺失值处理后:

  • 数据量很小,用朴素贝叶斯
  • 数据量适中或者较大,用树模型,优先 xgboost
  • 数据量较大,也可以用神经网络
  • 避免使用距离度量相关的模型,如KNN和SVM

7,组合和排列的概率问题

(1)4排,每排5个人,4本书给不同的4排的概率。

(2)A型血,B型血 ,O 和AB型。超过90%的概率,至少有一个人是B型血,共需要多少人。

8,KNN(最近邻算法)

一般情况下,KNN最近邻方法在( D)情况下效果最好

A 样本呈现团状分布

B 样本呈现链状分布

C 样本较多但典型性不好

D 样本较少但典型性好

KNN算法步骤:

(1)计算该点与其他已经知道标签的点的距离(欧氏距离等)

(2)选取距离最小的K个点

(3)按照一定的规则(以少胜多),将K个点中标签最多的那个标签作为该点的Label。

由于KNN要计算该点与其他所有点的距离,如果其他点过多,那么时间效率会非常低,因此有了kd树为了减少计算距离的次数(提高k近邻的搜索效率)。

KNN主要依靠相邻的K个点,这个成团状指的应该是所有样本呈团状分布。如下图,那么欧几里得距离就不容易计算出了。

python实现等深分箱边界算法 请用等深分箱法_缺失值_05

9,决策树和随机森林

假设其他条件都保持一致, 决策树的预测结果和随机森林的预测结果对比正确的是:(C

A,决策树的预测结果有更高的方差和更低的偏差

B,决策树的预测结果有更高的方差和偏差

C,决策树的预测结果有更低的方差和更高的偏差

D,决策树的预测结果有更低的方差和偏差

决策树是随机森林的基分类器,作为基分类器它对于特定的某一些数据集,具有较低的偏差,但是将决策树挪到其他不同的训练集上时,具有较高的方差,数据扰动对其的影响大。随机森林是在决策树的基础上来做的,使其对不同的数据集适用,相对于决策树来说,具有较低的方差,较高的偏差。但是总体的泛化误差会降低。

Bagging算法是对训练样本进行采样,产生出若干不同的子集,再从每个数据子集中训练出一个分类器,取这些分类器的平均,所以是降低模型的方差(variance)。Bagging算法和Random Forest这种并行算法都有这个效果。

Boosting则是迭代算法,每一次迭代都根据上一次迭代的预测结果对样本进行权重调整,所以随着迭代不断进行,误差会越来越小,所以模型的偏差(bias)会不断降低。

10,众数、中位数 

学校内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人,则年级属性的众数为:(B

A,三年级    B,一年级    C,二年级   D,四年级

11,马氏距离

在一个n维的空间中, 最好的检测outlier(离群点)的方法是(C
A, 作正态分布概率图
B, 作盒形图(箱型图)
C, 马氏距离
D, 作散点图

 盒形图就是箱型图,它可以看出样本的总体分布情况,但是具体某一个点的时候,比不过马氏距离。(距离是要通过计算的)。散点图也是一样的道理,在二维空间内还可以明显的看出离群点。但是维度高了之后,就不容易看出了。正态分布概率图不能看出离群点,只能说明数据的确是按照正态分布的,即使点处于正太分布的两端出,也不能说明是离群点还是正态中的正常点。

马氏距离:在欧几里得距离的基础上,考虑不同变量之间的相关性和量纲不同的基础上,进行两个变量之间差异性的探讨。可以做离群点检测。

12,演绎推理

若GDP增长率大于3%,那么城市居民和农民的人均收入一定都增长了。
假设以上推论是正确的,那么下列哪项一定正确( B )
A.城市居民和农民的人均收入都增长了,那么GDP增长率一定大于3%
B.城市居民的人均收入增长了,而农民的人均收入却减少了,那么GDP增长率一定小于或等于3%
C.如果GDP增长率小于或等于3%,城市居民的人均收入一定减少了
D.即使城市居民和农民的人均收入都减少了,GDP增长率也可能大于3%

考查复合命题的推理。题干是一个充分条件假言命题

充分条件的假言推理有以下规则:(1)肯定前件就要肯定后件,否定后件就要否定前件;(2)否定前件不能否定后件,肯定后件不能肯定前件。该命题中前件为 GDP增长率大于3%,后件为城市居民和农民的人均收入一定增长。A项是肯定了后件,根据肯定后件不能肯定前件的规则,A项错误。C项是否定了前件,根据否定前件不能否定后件的规则,C项也是错误的。D项是否定了后件,根据否定后件就要否定前件的规则,应该推出 GDP增长率一定大于3%。D项也是错误的。

13,相关性问题考察

当我们构造线性模型时,我们注意变量间的相关性.在相关矩阵中搜索相关系数时,如果我们发现3对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1)是 -0.98,0.45,1.23.我们可以得出什么结论:( C)

1.Var1和Var2是非常相关的     

2.因为Var1和Var2是非常相关的,我们可以去除其中一个 

3.Var3和Var1的1.23相关系数是不可能的

A、1 and 3           B、1 and 2            C、1,2 and 3          D、1

相关系数的取值范围是(-1,0)或(0,1) 。2是对的,可以用来降维。

14,置信区间

置信区间是指有95%的信心认为当前这个置信区间包含总体参数。

一个零件的长度为x,区间(8.7,9.2)包含估计量的概率为95%。这句话翻译就是 置信度为95%的置信区间是(8.7,9.2)。

x为零件的估计量,区间(8.7,9.2)包含估计量的概率为95%。【估计量不是变量,是定值,是不变的】

 调查部分参与校招的学生是否被录用后发现,置信度为95%的置信区间是(0.20,0.27),对置信区间的哪种解释正确(B

A,我们有95%确信这批所有参与校招的学生被录用的比例在0.20-0.27之间。 (所有参与调查的也不对)

B,参与校招的学生被录用的比例在0.20到0.27之间的概率为95%。  

C,如果重新对参与校招相同数量的学生进行同样调查,有95%的概率这批学生被录用的比例在0.20到0.27之间。(False

D,我们95%确定这批参与调查的学生录用比例在0.20到0.27之间。   

D选项 指录用比例在 0.20到0.27之间的概率为95%。不说落在,说包含。估计量是定值,而不是变量。

根据分析结果求得置信度为95%时,平均值的置信区间是(28.05±0.13)%, 意指( A )

包括总体平均值μ的把握有95%

  B.未来测定的实验平均值x 有95%落入(28.05±0.13)%区间中 (False)

落入(28.05±0.13)%区间中 

  D.已测定数据中,有95%落入(28.05±0.13)%区间中 (平均值的置信区间和所有值的置信区间不同)