背景:
12月份有的同学参加了新工联盟一级的测评考试,一级的内容主要是包括一些计算机基础、大数据基本知识、数据操作和处理、数据分析方法和数据可视化方法,今天就简单分享其中一部分内容(持续更新)。

一、大数据定义
定义:对于“大数据”(Big data)研究机构Gartner给出了这样的定义。它是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。通俗点:无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

二、大数据基本特征
特征:大数据有五大特点,即大量、高速、多样、低价值密度、真实性。它并没有统计学的抽样方法,只是观察和追踪发生的事情。

三、与传统数据分析的区别
数据分析一般需要的是excel的能力,外加需要一些spss、R、之类的能力较为常见。大数据分析是数据分析的一种,是以新技术处理数据的数据分析。大数据分析一般主要用的 是机器学习、数据挖掘等分析能力可能还需要架构(hadoop等)、存储等搭建或者优化的能力。

四、大数据分析流程
Step1:问题识别
大数据分析的第一步是要清晰界定需要回答的问题。对问题的界定有两个标准,一是清晰、二是符合现实。

Step2:数据可行性论证
论证现有数据是否足够丰富、准确,以致可以为问题提供答案,是大数据分析的第二步,项目是否可行取决于这步的结论。

Step3:数据准备
对需要处理的问题进行数据的采集获取、数据的清洗、数据整理。

Step4:建立模型
专业领域模型:大数据产品对应的项目可能有对应的专业领域模型,例如PEST分析模型、5W2H分析模型、逻辑树分析模型、4P营销理论模型、用户行为模型等。
数据分析模型:这类模型包含分析结构化数据的数据挖掘算法模型;处理非结构化数据的语义引擎;可视化策略等。流行观点中的大数据分析主要集中在对第二类模型的讨论上。

Step5:评估结果
①定量评估:
定量评估是关注主观标准的可靠性。数据挖掘分析方法在计算上虽然依靠技术,但不少关键节点依靠主观标准。
②定性评估:
定性评估的重点是考察大数据分析的结果是否合理、方案是否可行。