2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲
文章目录
- @[TOC](文章目录)
- 某小区居民订晚报60%,订青年报45%,两报均订30%,随机抽一户,至少订一种报纸的概率是
- 关于统计学和大数据之间的关系,下列说法错误的是:
- 下列说明错误的是( )
- Hive,hive是基于Hadoop的一个数据仓库工具
- 描述其集中趋势用 最为适宜,其值是,集中趋势永远是众数
- 《个人信息保护法》执行时间
- 检测一元正态分布中的离群点,属于异常值检测中的基于 的离群点检测
- 建立线性回归之前,我们可以利用哪种方法挑选重要属性,以降低模型的复杂度?
- 设置置信概率和置信区间的异常值判断方法为:统计判别法
- spss回归分析得出的R方值、F值、t值各有何含义,数值大小有何含义?
- ODS是指数据仓库
- 简单随机重复抽样,平均误差降低50%,则样本容量扩大4倍
- 下列哪个不是大数据提供的用户交互方式
- 检查异常值常用的统计图形是:箱线图
- 帕累托图,是“二八原则”的图形化体现。二八法则又叫帕累托法则,最早是由意大利经济学家帕累托发现的。
- 实际由源业务系统自动接入的指标数据,占应接指标总数的比例为:
- 假设检验中,拒绝域的边界称为:临界值
- 大数据不是泛指单一的数据集
- 数据收集的标准为相关、可靠、失效性高
- 《中华人民共和国数据安全法》中的数据,是任何电子、或者以其他方式对【信息】的记录
- 下列不是原始数据的来源的是:年鉴
- 数据挖掘技术的三个主要部分:
- 矩形树装结构图,用以展示树状结构数据
- excel工作表中,单元格内不能输入*数字来输入数值
- 有关数据仓库的测试,说法不正确的是
- Apriori算法
- 数据库的冗余性很低,不然我设计你做啥
- 反应客户的忠诚度:购买频次
- 5年后净现值为4500万,折现率为16%,终值为
- 数据再规定时间前和频度周期内接入系统的比例为
- 数据正规化在知识挖掘处理中的:数据编码阶段
- 关联分析,知道买蘑菇,就是要炖鸡了
- 四分位数不会受异常值的影响
- 大数据应用需求分为年度需求和即时需求
- 数据仓库的最终目的是:
- 总结
某小区居民订晚报60%,订青年报45%,两报均订30%,随机抽一户,至少订一种报纸的概率是
A
B
至少定一种的概率就是要么是定A,要么定B,要么AB
AB其实包含在A,或B中
需要减掉
P(A并B)=P(A)+P(B)-P(AB)
即0.6+0.4-0.3=0.75
关于统计学和大数据之间的关系,下列说法错误的是:
对于大数据来说,统计学的研究对象
统计学的研究对象是客观现象总体数量特征和数量关系。
它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。
由于统计学的定量研究具有客观、准确和可检验的特点,所以统计方法就成为实证研究的最重要的方法,广泛适用于自然、社会、经济、科学技术各个领域的分析研究。
不论你数据多少,大数据的研究对象仍然是这些总体数量特征和数量的关系
下列说明错误的是( )
A.
性别=“男”=> 职业=“司机”,是布尔型关联规则
B.
性别=“女”=> avg(收入)=2300,是一个数值型关联规则
C.
肝炎=> ALT(丙氨酸转氨酶)升高,是一个单层关联规则
D.
性别=“女”=> 职业=“秘书”,是多维关联规则
肝炎=> ALT(丙氨酸转氨酶)升高,是一个较高层次和细节层次之间的多层关联规则。
Hive,hive是基于Hadoop的一个数据仓库工具
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
描述其集中趋势用 最为适宜,其值是,集中趋势永远是众数
《个人信息保护法》执行时间
检测一元正态分布中的离群点,属于异常值检测中的基于 的离群点检测
建立线性回归之前,我们可以利用哪种方法挑选重要属性,以降低模型的复杂度?
设置置信概率和置信区间的异常值判断方法为:统计判别法
spss回归分析得出的R方值、F值、t值各有何含义,数值大小有何含义?
R平方越大(趋近于1)说明你拟合的曲线和实际曲线越趋近,当然效果越好了。
ODS是指数据仓库
ODS全称为Operational Data Store,是用来存储多个数据源业务数据的系统,其数据用来支持业务流程或者输入到数据仓库中进行分析。
是操作型数据存储,是“面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合。ODS是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征。
简单随机重复抽样,平均误差降低50%,则样本容量扩大4倍
为啥呢
原来比如误差是1/2
则1个错误
现在错误是降低1/2
那就是1/4的误差
样本容量不就是要4吗
下列哪个不是大数据提供的用户交互方式
检查异常值常用的统计图形是:箱线图
箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间
上下四分位数,专门用来卡异常值的
正常 是竖线箱子中的数据
*
和
o
都是异常值
帕累托图,是“二八原则”的图形化体现。二八法则又叫帕累托法则,最早是由意大利经济学家帕累托发现的。
二八原则认为:80%的财富掌握在20%的人手里,在实际应用场景中帕累托法则的作用就是找到对象中的关键因素,经常会用在销售管理、个人规划等方面。
SPSSAU提供的帕累托图分析,可以帮助从多项因素中快速科学地找出最重要因素,便于研究者提出更有针对性的建议和解决措施。
案例:当前有一项关于‘员工离职原因’的调研,使用问卷收集100份数据,现希望使用图形直观地展示出员工离职的重要原因。
通过从最大到最小的原因排序,可以展示出哪些因素是至关重要项,哪些因素是微不足道的。
结合智能分析总结可知,资待遇与福利、公司发展前景与预期落差大、激励机制较差、晋升机会少、当前职业无法发挥个人专长、工作压力较大、工作缺少成就感、上级处事方式较差共7个离职因素,占总数的80%左右是需要关注的原因。
其中“工资待遇与福利水平较差”是主要原因,应重点关注。
”公司发展前景与预期落差大”、“激励机制较差”、“晋升机会少”也都属于待遇福利等与收入相关的因素,可以将其归为一类原因关注。
其次,“当前职业无法发挥个人专长”、“工作压力较大”、“工作缺少成就感”属于软性方面的问题,更多与工作自身属性相关项,说明应该在招聘员工时加大关注员工兴趣与工作匹配度。
实际由源业务系统自动接入的指标数据,占应接指标总数的比例为:
假设检验中,拒绝域的边界称为:临界值
大数据不是泛指单一的数据集
数据收集的标准为相关、可靠、失效性高
《中华人民共和国数据安全法》中的数据,是任何电子、或者以其他方式对【信息】的记录
不管你是啥数据,都是记录的信息
下列不是原始数据的来源的是:年鉴
因为年鉴已经是高度处理过的集成的结果了
数据挖掘技术的三个主要部分:
数据、建模能力、算法与技术
矩形树装结构图,用以展示树状结构数据
使用矩形树图呈现出了
英国在76小时没有煤的情况下,电力生成占比情况,
由图可以看出在没有燃煤发电的情况下,燃油、核能、风能发电、太阳能发电等共同构成了电力来源,
其中,以燃油发电(Gas)占比最多,核能和新能源发电占比都在其之后
excel工作表中,单元格内不能输入*数字来输入数值
有关数据仓库的测试,说法不正确的是
没必要测试就离谱了
Apriori算法
给你一个表,给定可信度,支持度
问题1:请你找出频繁项集
问题2:强关联规则都有哪些?
问题1:请你找出频繁项集
频繁1项集,2,3,4,5。。。
找频繁1项集:标准是,支持度50%
这里四个id,就是4个项,那支持度标杆就是4*50%=2
根据标杆找项集
那出现次数大于2次的项是谁呢?
1出现了两次
2出现3次
3出现了3次
4出现了1次
5出现了3次
所以咱们的频繁1项集为(1,2,3,5)
这就是频繁1项集
再寻找频繁2项集
老样子,我们要用这个表了
12在原始表格中,出现了2次吗?【标杆是2】
12出现了1次
13出现了2次
15出现1次
23出现了2次
25出现了3次
35出现了2次
所以,频繁2项集是:
(13,23,25,35)下一步找频繁3项集
又是去组合这个表
咱们看看
同类项合并,2个项中首项相同的,才有必要拼接【记住这个特性】
【(原来是随机组合,但是没必要)】
23和25是首项同,拼
235出现了2次
所以频繁3集只有(235)
频繁4项集凑不出来了目前就结束
所以频繁集就出来了。
问题2:强关联规则都有哪些?
强关联的标杆是啥?
可信度70%
看3项集中的东西
23->5推出
32->5
25->3
52->3
35->2
53->2
一个个算它的可信度:
23->5推出
32->5:
235出现的次数2
除以
23出现的次数2
2除以2=1
25->3
52->3
235出现的次数2
除以
25出现的次数3
2除以3=0.67【不足】
35->2
53->2
235出现的次数2
除以
35出现的次数2
2除以2=1
再根据频繁2项集找最大关联规则
老样子,看2项集
(13,23,25,35)
13出现2次
1出现2次
3出现3次
1->3则就是2/2=1
3->1的话,就是2/3,小于0.7
不行
反正就这么去推理即可
这样的话,超过可信度70%的那些都是强关联规则
懂?
这就是apriori算法
贼溜
所这道题你能理解吗
数据库的冗余性很低,不然我设计你做啥
反应客户的忠诚度:购买频次
5年后净现值为4500万,折现率为16%,终值为
现值*系数=终值
系数=(1+i)r(次方)
系数(1+0.16)^5
1.16的5次方=2
4500×2就是答案
数据再规定时间前和频度周期内接入系统的比例为
数据正规化在知识挖掘处理中的:数据编码阶段
关联分析,知道买蘑菇,就是要炖鸡了
四分位数不会受异常值的影响
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字.
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字.第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字.
排序后,找排序属于0.25和0.75未知的数
大数据应用需求分为年度需求和即时需求
数据仓库的最终目的是:
总结
提示:重要经验:
1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。