数据分析师,顾名思义是指那些专门分析数据的人员,分析的数据主要是结构化数据,近年来对文本数据的分析也越来越多。
更加通俗的讲,数据分析师其实是翻译人员,是将数据翻译成结论的人,且这个结论是对方能听懂的。
下面这张有行和列的数据就是结构化数据,也是我们平时分析使用最多的数据。
不同行业的数据分析师,是有一定差别的,有的偏研发岗位,比如数据挖掘工程师、机器学习工程师、数据工程师;有的偏业务岗位,比如运营分析专家、用户研究工程师、商业分析师等。
在这些岗位中,都涉及到通过分析数据来解决问题,只是在整个工作流程中的侧重点会稍有不同。
那么,我们现在就来看一下数据分析的工作流程:
我来解释一下这个图:
第1步:数据分析最开始是由一个明确的问题来驱动的,比如互联网企业中经常会遇到【上周APP日活人数发生明显增加/下降的现象】,这时候就需要通过数据分析来找答案。
当然有些领域也会出现【在没有明确问题的前提下,拿到数据就开展分析工作】的情况,比如高校等科研院所,领导可能会直接甩给你一批数据,让你挖掘挖掘,看能得到什么结论,其实这类数据分析工作与企业中常说的数据分析工作,存在本质上的区别,对于这方面的内容,以后我可以再单独详细阐述。
第2步:这个问题是否能细分为多个小问题。一个大而复杂的问题,通常很难用一种数据分析方法解决,需要细化为多个小问题,每个小问题可以用一个简单的数据分析方法搞定。并且,根据细分的小问题,我们可以知道每个小问题需要收集哪些数据、用什么分析方法、制作什么样的图表等等
这一步在数据分析过程中非常关键,是考察我们研究设计能力高低的重要判断依据。
第3步:根据每个细分小问题,收集相应的数据。
第4步:根据收集到的数据,相应选择合适的数据分析方法,得到一个个细分小结论。
第5步:总结完整的结论。
第6步:评估结论是否能合理解释最开始的问题,这一步与第2步同等重要。
在这六个步骤中,第1、2、6步是非常非常关键的。
但是,这点往往被数据分析师所忽略,很多人认为第4步最重要,认为用高大上的分析方法、画出酷炫的可视化图表是反应一个人数据分析技术高低的标准。对于这个观点,我表示哭笑不得。我在招人的时候,判断一个人分析技能高低的标准之一是针对第2步的小问题能否选择合适的分析方法。
说完数据分析的流程,再回过来说下数据分析师的工作内容。当前互联网企业中数据分析师的岗位,70%的工作量主要集中在数据采集、整理和预处理上,这是数据分析这项工作的属性决定的,必须得先收集到数据,再清洗数据才能做后面的分析工作,而收集数据、清洗数据又是数据分析中最累的活。
剩下30%的工作包括设计指标、使用工具(Excel、Tableau、SPSS、R、Sass、Python、EViews、Stata等)分析数据、写报告、开会等等。
但是,很多刚入行数据分析的人,在面对整天处理大量数据的重复性工作时,总是感到厌倦、失望、崩溃,甚至在还没有接触到后面30%的工作时,就萌生了转行的想法......
其实,这些都属于数据分析师的“份内事”,只有把前期的工作做扎实,后期的分析工作才能完成的更漂亮。