2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲


文章目录


  • @[TOC](文章目录)
  • 某小区居民订晚报60%,订青年报45%,两报均订30%,随机抽一户,至少订一种报纸的概率是
  • 关于统计学和大数据之间的关系,下列说法错误的是:
  • 下列说明错误的是( )
  • Hive,hive是基于Hadoop的一个数据仓库工具
  • 描述其集中趋势用 最为适宜,其值是,集中趋势永远是众数
  • 《个人信息保护法》执行时间
  • 检测一元正态分布中的离群点,属于异常值检测中的基于 的离群点检测
  • 建立线性回归之前,我们可以利用哪种方法挑选重要属性,以降低模型的复杂度?
  • 设置置信概率和置信区间的异常值判断方法为:统计判别法
  • spss回归分析得出的R方值、F值、t值各有何含义,数值大小有何含义?
  • ODS是指数据仓库
  • 简单随机重复抽样,平均误差降低50%,则样本容量扩大4倍
  • 下列哪个不是大数据提供的用户交互方式
  • 检查异常值常用的统计图形是:箱线图
  • 帕累托图,是“二八原则”的图形化体现。二八法则又叫帕累托法则,最早是由意大利经济学家帕累托发现的。
  • 实际由源业务系统自动接入的指标数据,占应接指标总数的比例为:
  • 假设检验中,拒绝域的边界称为:临界值
  • 大数据不是泛指单一的数据集
  • 数据收集的标准为相关、可靠、失效性高
  • 《中华人民共和国数据安全法》中的数据,是任何电子、或者以其他方式对【信息】的记录
  • 下列不是原始数据的来源的是:年鉴
  • 数据挖掘技术的三个主要部分:
  • 矩形树装结构图,用以展示树状结构数据
  • excel工作表中,单元格内不能输入*数字来输入数值
  • 有关数据仓库的测试,说法不正确的是
  • Apriori算法
  • 数据库的冗余性很低,不然我设计你做啥
  • 反应客户的忠诚度:购买频次
  • 5年后净现值为4500万,折现率为16%,终值为
  • 数据再规定时间前和频度周期内接入系统的比例为
  • 数据正规化在知识挖掘处理中的:数据编码阶段
  • 关联分析,知道买蘑菇,就是要炖鸡了
  • 四分位数不会受异常值的影响
  • 大数据应用需求分为年度需求和即时需求
  • 数据仓库的最终目的是:
  • 总结

某小区居民订晚报60%,订青年报45%,两报均订30%,随机抽一户,至少订一种报纸的概率是

A
B
至少定一种的概率就是要么是定A,要么定B,要么AB
AB其实包含在A,或B中
需要减掉
P(A并B)=P(A)+P(B)-P(AB)
即0.6+0.4-0.3=0.75

关于统计学和大数据之间的关系,下列说法错误的是:

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用


对于大数据来说,统计学的研究对象

统计学的研究对象是客观现象总体数量特征和数量关系

它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。

由于统计学的定量研究具有客观、准确和可检验的特点,所以统计方法就成为实证研究的最重要的方法,广泛适用于自然、社会、经济、科学技术各个领域的分析研究。

不论你数据多少,大数据的研究对象仍然是这些总体数量特征和数量的关系

下列说明错误的是( )

A.

性别=“男”=> 职业=“司机”,是布尔型关联规则

B.

性别=“女”=> avg(收入)=2300,是一个数值型关联规则

C.

肝炎=> ALT(丙氨酸转氨酶)升高,是一个单层关联规则

D.

性别=“女”=> 职业=“秘书”,是多维关联规则

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_02


肝炎=> ALT(丙氨酸转氨酶)升高,是一个较高层次和细节层次之间的多层关联规则。

Hive,hive是基于Hadoop的一个数据仓库工具

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

数据挖掘算法和应用 数据挖掘算法应用题_大数据_03

描述其集中趋势用 最为适宜,其值是,集中趋势永远是众数

数据挖掘算法和应用 数据挖掘算法应用题_大数据_04


数据挖掘算法和应用 数据挖掘算法应用题_大数据_05

《个人信息保护法》执行时间

数据挖掘算法和应用 数据挖掘算法应用题_大数据_06

检测一元正态分布中的离群点,属于异常值检测中的基于 的离群点检测

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘_07

建立线性回归之前,我们可以利用哪种方法挑选重要属性,以降低模型的复杂度?

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_08

设置置信概率和置信区间的异常值判断方法为:统计判别法

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_09

spss回归分析得出的R方值、F值、t值各有何含义,数值大小有何含义?

R平方越大(趋近于1)说明你拟合的曲线和实际曲线越趋近,当然效果越好了。

ODS是指数据仓库

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘_10


ODS全称为Operational Data Store,是用来存储多个数据源业务数据的系统,其数据用来支持业务流程或者输入到数据仓库中进行分析。

是操作型数据存储,是“面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合。ODS是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征。

数据挖掘算法和应用 数据挖掘算法应用题_大数据_11

简单随机重复抽样,平均误差降低50%,则样本容量扩大4倍

为啥呢
原来比如误差是1/2
则1个错误
现在错误是降低1/2
那就是1/4的误差
样本容量不就是要4吗

数据挖掘算法和应用 数据挖掘算法应用题_数据_12

下列哪个不是大数据提供的用户交互方式

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_13

检查异常值常用的统计图形是:箱线图

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_14


箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间

上下四分位数,专门用来卡异常值的

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_15


正常 是竖线箱子中的数据

*


o

都是异常值

帕累托图,是“二八原则”的图形化体现。二八法则又叫帕累托法则,最早是由意大利经济学家帕累托发现的。

数据挖掘算法和应用 数据挖掘算法应用题_数据_16

二八原则认为:80%的财富掌握在20%的人手里,在实际应用场景中帕累托法则的作用就是找到对象中的关键因素,经常会用在销售管理、个人规划等方面。

SPSSAU提供的帕累托图分析,可以帮助从多项因素中快速科学地找出最重要因素,便于研究者提出更有针对性的建议和解决措施。

案例:当前有一项关于‘员工离职原因’的调研,使用问卷收集100份数据,现希望使用图形直观地展示出员工离职的重要原因。

数据挖掘算法和应用 数据挖掘算法应用题_大数据_17


数据挖掘算法和应用 数据挖掘算法应用题_数据_18


通过从最大到最小的原因排序,可以展示出哪些因素是至关重要项,哪些因素是微不足道的。

结合智能分析总结可知,资待遇与福利、公司发展前景与预期落差大、激励机制较差、晋升机会少、当前职业无法发挥个人专长、工作压力较大、工作缺少成就感、上级处事方式较差共7个离职因素,占总数的80%左右是需要关注的原因。

其中“工资待遇与福利水平较差”是主要原因,应重点关注。
”公司发展前景与预期落差大”、“激励机制较差”、“晋升机会少”也都属于待遇福利等与收入相关的因素,可以将其归为一类原因关注。

其次,“当前职业无法发挥个人专长”、“工作压力较大”、“工作缺少成就感”属于软性方面的问题,更多与工作自身属性相关项,说明应该在招聘员工时加大关注员工兴趣与工作匹配度。

实际由源业务系统自动接入的指标数据,占应接指标总数的比例为:

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_19

假设检验中,拒绝域的边界称为:临界值

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_20

大数据不是泛指单一的数据集

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_21


数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_22

数据收集的标准为相关、可靠、失效性高

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_23

《中华人民共和国数据安全法》中的数据,是任何电子、或者以其他方式对【信息】的记录

数据挖掘算法和应用 数据挖掘算法应用题_数据_24


不管你是啥数据,都是记录的信息

下列不是原始数据的来源的是:年鉴

因为年鉴已经是高度处理过的集成的结果了

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_25

数据挖掘技术的三个主要部分:

数据、建模能力、算法与技术

数据挖掘算法和应用 数据挖掘算法应用题_数据_26

矩形树装结构图,用以展示树状结构数据

数据挖掘算法和应用 数据挖掘算法应用题_大数据_27


使用矩形树图呈现出了

英国在76小时没有煤的情况下,电力生成占比情况,

由图可以看出在没有燃煤发电的情况下,燃油、核能、风能发电、太阳能发电等共同构成了电力来源,

其中,以燃油发电(Gas)占比最多,核能和新能源发电占比都在其之后

数据挖掘算法和应用 数据挖掘算法应用题_数据_28

excel工作表中,单元格内不能输入*数字来输入数值

数据挖掘算法和应用 数据挖掘算法应用题_数据_29

有关数据仓库的测试,说法不正确的是

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘_30


数据挖掘算法和应用 数据挖掘算法应用题_数据_31


没必要测试就离谱了

Apriori算法

给你一个表,给定可信度,支持度

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_32


问题1:请你找出频繁项集
问题2:强关联规则都有哪些?

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘_33


问题1:请你找出频繁项集

频繁1项集,2,3,4,5。。。

找频繁1项集:标准是,支持度50%
这里四个id,就是4个项,那支持度标杆就是4*50%=2

根据标杆找项集

那出现次数大于2次的项是谁呢?

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_32


1出现了两次

2出现3次

3出现了3次

4出现了1次

5出现了3次

所以咱们的频繁1项集为(1,2,3,5)
这就是频繁1项集

再寻找频繁2项集

老样子,我们要用这个表了

数据挖掘算法和应用 数据挖掘算法应用题_大数据_35


12在原始表格中,出现了2次吗?【标杆是2】

12出现了1次

13出现了2次

15出现1次

23出现了2次

25出现了3次

35出现了2次

所以,频繁2项集是:

(13,23,25,35)下一步找频繁3项集

又是去组合这个表

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘_36


咱们看看

同类项合并,2个项中首项相同的,才有必要拼接【记住这个特性】

【(原来是随机组合,但是没必要)】

23和25是首项同,拼

235出现了2次

所以频繁3集只有(235)

频繁4项集凑不出来了目前就结束

所以频繁集就出来了。

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_37

问题2:强关联规则都有哪些?

强关联的标杆是啥?
可信度70%
看3项集中的东西
23->5推出
32->5
25->3
52->3
35->2
53->2

一个个算它的可信度:
23->5推出
32->5:
235出现的次数2
除以
23出现的次数2
2除以2=1

25->3
52->3
235出现的次数2
除以
25出现的次数3
2除以3=0.67【不足】

35->2
53->2
235出现的次数2
除以
35出现的次数2
2除以2=1

再根据频繁2项集找最大关联规则

老样子,看2项集
(13,23,25,35)
13出现2次
1出现2次
3出现3次
1->3则就是2/2=1
3->1的话,就是2/3,小于0.7
不行
反正就这么去推理即可

这样的话,超过可信度70%的那些都是强关联规则
懂?

这就是apriori算法
贼溜

所这道题你能理解吗

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘_38


数据挖掘算法和应用 数据挖掘算法应用题_大数据_39

数据库的冗余性很低,不然我设计你做啥

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_40

反应客户的忠诚度:购买频次

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_41

5年后净现值为4500万,折现率为16%,终值为

现值*系数=终值
系数=(1+i)r(次方)

系数(1+0.16)^5

1.16的5次方=2

4500×2就是答案

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_42

数据再规定时间前和频度周期内接入系统的比例为

数据挖掘算法和应用 数据挖掘算法应用题_大数据_43

数据正规化在知识挖掘处理中的:数据编码阶段

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_44

关联分析,知道买蘑菇,就是要炖鸡了

数据挖掘算法和应用 数据挖掘算法应用题_数据挖掘算法和应用_45

四分位数不会受异常值的影响

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字.
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字.第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字.

排序后,找排序属于0.25和0.75未知的数

数据挖掘算法和应用 数据挖掘算法应用题_数据_46

大数据应用需求分为年度需求和即时需求

数据挖掘算法和应用 数据挖掘算法应用题_数据仓库_47

数据仓库的最终目的是:

数据挖掘算法和应用 数据挖掘算法应用题_大数据_48


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。