什么叫数据分析,它要达到何种目的。

数据分析是指的是通过统计学方法对采集来的数据进行整理分析,从中提取有用信息并最终得出结论的过程。

某些学者认为,数据分析分为三类,入门级的描述性数据分析,其方法主要有对比、平均、交叉分析法。高级的探索、和验证数据分析,分析方法有主要有相关分析,回归分析,因子分析。这样的提法有它自己的道理。在我看来,实际上就两类:描述性统计分析和计算性数据分析。

在日常生活和工作中,我们经常不自觉得进行着或者接触到数据分析,比如手机费连续几个月的陡升,我们往往会查看这几个月的电子账单,查找电话费上升的原因。再比如,比较北京市各区房价,在考虑自身经济和位置状况的前提下,我们选择价格与条件性价比最高的房子。工作中,数据分析的例子就更多了。比如销售额的增长状况,网络平台流量分析,推广效果,客户状况分布图等等。以上这些都是数据分析。

数据分析的一般流程:


我们这里着重前五个步骤。

1. 明确分析目的

数据分析要根据目的选择分析方式。很多公司做分析的员工根本不知道分析的最终目的,或者告诉她,她也不是很在乎。只在乎你让她做什么,不在乎为什么这样做。或许这是我们独特企业文化造成的最不应该有的一个事实。然而,没有目的的数据分析往往会被数据本身淹没,深陷其中,且抓不住数据分析的重点,总是认为采用哪些所谓的数学建模等高大上的数学分析方法才算完美。实际上这种分析方式完全不可取的。分析前一定要目的明确,根据目的选择适合的分析方式。我们宗旨是用最节省脑细胞的方式分析数据。很多时候,一些一眼就能看出或者稍作分析就能得到结论的问题我们就不要做什么复杂的数据分析方法。根据我的经验,80%的数据问题都可以以简单的分析方式解决。如果分析没有目的,闷着头按照固定的分析套路走,很多时候用了半天劲,才发现一无所获。根据目的,选择刚刚好的分析方式是我们每位数据分析师应该把握的人生哲学。

分析的目的分为三类:

1. 对现状进行描述性分析,给决策者提供未来发展方向的依据。

2. 原因分析,弄清造成这种现状的原因。

3. 为事物将来的发展趋势做出预测。指导决策者做出相关应对措施。向有利方向发展的趋势采取加强或鼓励措施。反之,则是通过有效手段降低和弱化甚至消除不利的发展趋势。

明确分析目的后,确定详细的分析思路,也就是找到目的达成的方法。在这一步骤,我的习惯是参考现有的数据分析方法论画出解决问题的草图。先分析什么,后分析什么,怎么分析,都要详细的写在草图上,形成体系化的分析框架。




2. 数据收集,有了分析框架,我们就要收集适合分析框架的数据。我以前做的数据分析,其数据大都来自自己互联网平台数据,数据采集可以说是信手拈来,想要什么数据就有什么数据,所以从来就没有数据收集的概念。其实,数据收集很多时候是一件十分辛苦的事?

 

3. 数据的处理

数据处理常用的方法有四种:数据清洗,数据转化,数据提取,数据计算。

其目的是把杂乱无章的数据处理成可以分析的数据。

 

4. 数据分析

定义中已经讲的很清楚,我这里不再重复。

这里我想说下数据分析师的分级:

初级分析师应该能用excel做数据分析,对概率论和数理统计以及线性代数有稍许了解。

中级分析师应该能用Spss,Access,Pivot做数据分析,对概率论和数理统计以及线性代数有一定了解。

高级分析师除了能用各种软件,对Python, R,VBA等语言也十分精通,对概率论以及数理统计和线性代数也十分熟悉,并且对优选法也有一定了解。甚至对数据开发和挖掘也有一定经验。

我们教学的目的是通过我们的课程你能达到初级分析师的水平,同时掌握只有高级分析师具备的python编程能力。

下面我们谈一下数据挖掘,数据挖掘就是数据分析,但是数据分析不一定是数据挖掘。也就是他们之间是一种包含与被包含的关系。数据挖掘是一种高级数据分析方法。它和数学几乎没什么两样。属于数据分析难度的最高阶段。具体方法包括分类、聚类、关联和预测。

 

5. 数据展现

其实就是画图,根据数据的实际情况,画出最能展现数据的图表。

 

6. 数据报告

这个就看你的文学水平了。不仅要文笔好,而且要条理清晰。把数据分析的起因,过程,结论,建议都要写得清清楚楚,一目了然。