目录
- 目录
- 大数据分析师的职责
- 金字塔模型
- DATA SOURCES
- DATA WAREHOUSES
- DATA EXPLORATION
- DATA MINING
- DECISIONS
- 大数据分析师职责
- R语言
- 建议
- 常用统计量
- 集中趋势的指标
大数据分析师的职责
2016年06月大数据俱乐部正式成立,在成立前的几次活动中以及中生代技术社区的线下活动之中,我都有分享大数据分析师对于企业、政府以及NGO组织的重要性。大数据分析师仅仅只是数据的整理者吗?
不是!大数据分析师是技术岗位中的需要“业务+技术”的综合性岗位,大数据分析师在了解产品或业务的情况下,用数据将公司内各部门的业务串联起来,对运营的数据、客服数据、用户数据、交易数据、逾期数据等进行分析,并进行可视化展示,给CEO或者其他决策者,甚至就是自己提供显而易懂的真实情况和预测,支持决策分析。
综上所述, 在大部分的公司中,DBA主要负责管理源数据,建立数据仓库,然后做统计分析;大数据分析岗位主要负责数据挖掘和数据分析以及数据的可视化展示,技术含量和难度远大于DBA,同时,还要求有业务能力,直接影响到决策者的决定。
金字塔模型
我先介绍一下数据分析的金字塔模型,让大家对数据分析有更深入的了解。
1.DATA SOURCES
第一层,也就是最基础的一层,叫做DATA SOURCES,也就是源数据,比如是生产线上的各种数据,银行业务数据、电信运营商在交换机上采集下来的数据等等。
2.DATA WAREHOUSES
生产的数据,通过ETL( Extract抽取-Transform变换-Load装载 )清洗和整理的过程,把需要的数据往数据仓库里面放,所以,数据仓库(DATA WAREHOUSES)是第二层。数据仓库主要是给盛放数据提供物理基础,我们对数据进行分析的原材料都放在数据仓库里面。这几年除了数据仓库之外,还兴起了数据集市这个概念,但数据集市是部门级的数据仓库,规模较小。
3.DATA EXPLORATION
第三层是DATA EXPLORATION,这一层主要是做统计分析,比如平均值、标准差、方差、从小到大排序、求最小值、最大值、中位数、众数等常用的统计学指标;同时,还有QUERYING查询,比如,在ORACLE数据库里面用SQL语言来查询东西。这一层的计算目标和计算方法都很清晰。
4.DATA MINING
第四层,是DATA MINING,亦即数据挖掘。在此,我要强调一下数据挖掘与统计分析的区别。统计分析的统计量和算法是非常清楚的,而数据挖掘的目标是不清楚,实现目标所采用的方法和手段也不清楚,这个是最大的差别。数据挖掘的技术含量和难度要比统计分析要高很多。
5.DECISIONS
第五层,我们会将数据分析和数据挖掘的结果通过图表和报表的方式展现出来,这是数据展现层,即数据可E化。其实,描述结果是这一层的核心工作,最后一层是我们将报表和图表交给老板做决策。
大数据分析师职责
在大部分的公司中,负责第一层到第三层的岗位是DBA,他们主要负责管理源数据,建立数据仓库,然后做统计分析;负责第四层和第五层的岗位是数据分析岗位,他们主要负责数据挖掘和数据分析以及数据的可视化展示,技术含量和难度远大于DBA,同时,还要求有业务能力,直接影响到决策者的决定。
R语言
在此,我推荐我比较常用的R语言(后续,我会对R语言做一个专题,分享我在实战中对R语言的使用,同时,我也会上传我在各类技术社区线下分享中的专题,比如,中生代社区、大数据俱乐部、CSDN线下活动、整洁代码俱乐部等)。R语言覆盖了第三层一直到第五层,包括数据的统计分析、算法、数据可视化、挖掘等,也就是说,R语言可以做统计分析、数据挖掘、以及数据的可视化。
建议
要想做大数据分析师,数学统计方面的知识肯定少不了。数学的功底决定了你的上限,所以,建议平时多看看统计建模的书,多学习了解数学统计的知识。
常用统计量
下面我会列举一些我们统计分析经常要计算的统计量,并且,分别简单介绍一下各自常用的场景或者特点。
1.集中趋势的指标
- 均值(mean)
即平均数,mean=1/n*sum(X1:Xn);均值能够利用所有已知信息,但是对异常值(极小或极大值)很敏感 - 中位数(median)
排序后居于中间位置的数值,有序尺度常用;不能充分利用已知的所有变量信息 ,但不受异常值的影响 - 众数(mode)
出现最频繁的数值,代表分布中的高峰;名义尺度(分组数据)常用