目录

1.1节概念与术语

数据模型:

big data Versus small data


1.1节概念与术语

定义:大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。

概念:

1)数据集:一组or一个相关联的数据组成的集合(数据与其他成员之间有相同的特征/属性); 

2)数据分析:通过处理数据,发现深层知识、模式、关系或趋势的过程;

大数据分析课程 重点难点_数据

3)数据分析学:一门学科,涵盖了对整个数据生命周期的管理,而数据生命周期包含了数据收集、数据清理、数据组织、数据分析、数据存储以及数据管理等过程。此外,数据分析学还涵盖了分析方法、科学技术、自动化分析工具等

大数据分析课程 重点难点_数据_02

根据分析结果的不同,分类:

  • 描述性分析:往往是对已经发生的事件进行问答和总结。这种形式的分析需要将数据置于生成信息的上下文中考虑。
  • 诊断性分析:通过获取一些与事件相关的信息来回答有关的问题,最后得出事件发生的原因
  • 预测性分析:信息将得到增值,这种增值主要表现在信息之间是如何相关的。这种相关性的强度和重要性构成了基于过去事件对未来进行预测的模型的基础;
  • 规范性分析:其注重的不仅是哪项操作最佳,还包括了其原因,规范性分析提供了经得起质询的结果

商务智能:通过分析由业务过程和信息系统生成的数据让一个组织能够获取企业绩效的内在认识。分析的结果可以用于改进组织绩效,或者通过修正检测出的问题来管理和引导业务过程。

KPI:衡量一次业务过程是否成功的度量标准 (关键绩效指标)

特征:容量;速率;多样性;数据真实性(准确性,联通性);价值(核心)5V(6V)

数据来源:

数据类型:   

  •                  结构化(以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的)
  •                   半结构化数据(不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构,有些人说半结构化数据是以树或者图的数据结构存储的数据)
  •                      非结构化数据(就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式)
  •                      元数据(数据的数据,常见:数据的表结构Schema信息;数据的空间存储,读写记录,权限归属和其它各类统计信息;’数据的血缘关系信息;数据的业务属性信息,用于数据库)  按用途的不同分为两类:技术元数据(存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据)和业务元数据(提供了介于使用者和实际系统之间的语义层)  元数据几乎可以被称为是数据仓库乃至商业智能(BI)系统的“灵魂”。

数据模型:

  • 结构化数据:二维表(关系型)
  • 半结构化数据:树、图
  • 非结构化数据:无
  • RMDBS的数据模型有:如网状数据模型、层次数据模型、关系型
  • 结构化数据:先有结构、再有数据
  • 半结构化数据:先有数据,再有结构

big data Versus small data

goal:S:answer a specific question/serve a particular  goal

     B:flexible goal/protean questions

Location:S:often on one computer/one file    B:everywhere

structure and conent:S:highly structured    B:unstructured

Data preparation:S:for user own purposes   B:by anyone

Longevity:S: short    B:long

Measurements;reproducibiliy;stakes;...