数据分析
- 1、概述
- 1.1 定义
- 1.2 作用
- 1.2.1 现状分析
- 1.2.2 原因分析
- 1.2.3 预测分析
- 1.3 六部曲
- 1.3.1 明确分析目的和内容
- 1.3.2 数据收集
- 1.3.3 数据预处理
- 1.3.4 数据分析
- 1.3.5 数据展现
- 1.3.6报告撰写
- 2、数据分析方法
- 2.1 统计分析方法
- 2.2 数据挖掘方法
1、概述
1.1 定义
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
- 数据分析立足于三点:一是目的,要有针对性;二是方法,统计基础和数据挖掘;三是结果,要达到最初的目的并有较好的应用。
- 从行业的角度:数据分析是基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。
1.2 作用
1.2.1 现状分析
- 通过数据可以察看企业的整体运营情况,通过各项指标衡量企业的运营状况
- 了解各项业务发展和变动情况
- 通过日常同报完成,如日报,周报,月报
1.2.2 原因分析
- 有了现状分析,但不知好在哪里,差在哪里,就要进一步开展原因分析,做优化调整,提升产品价值
- 原因分析通过专题分析完成。
1.2.3 预测分析
- 需要对企业未来发展趋势做预测,为企业提供参考与决策依据,使企业持续健康发展。
- 预测分析通过专题分析完成,指定企业年度,季度计划时进行。
1.3 六部曲
数据分析的过程主要包括:明确分析目的和内容、数据收集、数据处理、数据分析、数据展现和报告撰写等六个步骤。
1.3.1 明确分析目的和内容
在进行数据分析之前,数据分析师应对需要分析的项目进行一个详细的了解,或者自己本身就对此分析项目所涉及的行业有比较深刻的了解,对其内部的运行规律即使做不到了如指掌,至少也要有一个整体框架上的了解。数据分析的对象是谁?数据分析的商业目的是什么?最后的结果要解决什么样的业务问题?数据分析师对这些都要了然于心。对数据分析目的的把握,是数据分析项目成败的关键。只有对数据分析的目的有深刻的理解,才能整理出完整的分析框架和分析思路,因为根据不同的数据分析目的所选择的数据分析方法是不同的。
1.3.2 数据收集
当我们根据分析的目的,选定了相应的设计框架之后,一个重要的问题就出现了,如何能准确有效地收集数据,从而客观全面地反映所要研究的问题的真实状况。数据收集是一个按照确定的数据分析和框架内容,有目的地收集、整合相关数据的过程,它是数据分析的基础。通常数据收集的方法包括观察法、访谈法、问卷法、测验法等。
1.3.3 数据预处理
数据预处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。概括起来,统计数据预处理的过程包括数据审查、数据清理、数据转换和数据验证四个步骤。
第一步:数据审查
该步骤检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与研究目的要求一致,是否全面,包括利用描述性统计分析,检查各个字段的字段类型,字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。
第二步:数据清理
该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,使得后续的数据分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除。
第三步:数据转换
数据分析强调分析对象的可比性,但不同字段值由于计量单位等不同,往往造成数据不可比。对一些统计指标进行综合评价时,如果统计指标的性质、计量单位不同,那么容易引起评价结果出现较大误差,再加上分析过程中的其他一些要求,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化,以及属性构造等。
第四步:数据验证
1.3.4 数据分析
数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。到了这个阶段,要能驾驭数据、开展数据分析,就要涉及工具和方法的使用。其一要熟悉常规数据分析方法,最基本的是要了解例如方差、回归、因子、聚类、分类、时间序列等数据分析方法的原理、使用范围、优缺点和结果的释;其二要熟悉 1+1 种数据分析工具,Excel 是最常见的数据分析工具,一般的数据分析我们可以通过 Excel 完成,而后要熟悉一个专业的分析软件便于进行一些专业的统计分析、数据建模等。
1.3.5 数据展现
一般情况下,数据分析的结果都是通过图、表的方式来呈现的,俗话说“字不如表,表不如图”。借助数据展现手段,能更直观地让数据分析师表述想要呈现的信息、观点和建议。常用的图表包括饼形图、折线图、柱形图/条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕雷托图等。
1.3.6报告撰写
最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。通过分析报告,把数据分析的目的、过程、结果及方案完整呈现出来,以为达成商业目的提供参考。
一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容。图文并茂可以令数据更加生动活泼,提高视觉冲击力,有助于读者更形象、直观地看清楚问题和结论,从而产生思考。
另外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,更重要的是解决问题,否则称不上是好的数据分析,同时也失去了报告的意义,数据分析的初衷就是为了满足商业目的而进行的。
2、数据分析方法
数据分析方法的选择很重要,有时候不同的数据分析方法会得到不同的分析结果。
2.1 统计分析方法
- 描述性统计分析
- 回归分析
- 对应分析
- 因子分析
- 方差分析
3.对应分析
对应分析(Correspondence Analysis)又称“关联分析”、“R-Q 型因子分析”,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
4.因子分析
因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减轻决策困难的分析方法。因子分析的方法有 10 多种,如重心法、影像分析法,最大似然解法、最小平方法、阿尔发抽因法、拉奥典型抽因法等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。
5.方差分析
方差分析(Analysis of Variance,简称 ANOVA)又称“变异数分析”、“F 检验”,是 R.A.Fisher发明的分析方法,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一个是不可控的随机因素,另一个是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
2.2 数据挖掘方法
- 聚类分析
- 分类分析
决策树、贝叶斯、支持向量机、随机森林、人工神经网络。 - 关联规则
- 回归分析