数据虚拟化

数据存储类型:

  • 结构化:库表
  • 半结构化:html页面
  • 非结构化:excel,xml,文本文件,图片,声音

数据存储形式

数据仓库:一个支持管理决策进程的面向主题的,集成的,随时间变化的,永久保存的数据集合;

数据集市:数据仓库的子集,用于提高部分用户的分析性能;

数据中转区:数据暂存区.数据流转:数据源->数据中转区->数据仓库.用于简化数据仓库的数据源集成规则;同时便于数据仓库进行数据清洗,转换;

操作数据存储:数据流转:数据源->数据中转区->操作数据存储->数据仓库.集成变化的最新数据,减少数据仓库的数据变化;

数据湖:一个以数据原始格式保存数据的存储库,使用时再决定具体结构;

通过这些存储方式进行数据分析方式的方式:

拷贝
etl
elt

问题:流程长,时效性差,非操作型实时分析

数据虚拟化

数据虚拟化:一种给数据使用者提供一个统一,抽象,封装的视图,来查询,操作异构数据存储集合中数据的技术.

核心:封装,抽象,数据联合(按需集成),数据集成(合并,转换,清洗)

数据虚拟化服务模型:

设计模型:用于数据定义
元数据规范:转换,清洗,集成规范
运行模型:数据使用者访问虚拟化层使用的模型,核心功能:调度程序,存储引擎,缓存管理,查询优化等;

数据流转流程:

请求方->虚拟化服务api->虚拟表->映射->封装表->源表

源表:时间多源数据的物理存储表
封装表:虚拟化层对于源表数据进行封装所形成的表,也被称为视图
虚拟表:显示数据与封装表映射所形成的表,是具体呈现给请求方的表结构;

元数据

元数据:用于描述数据的数据.便于数据使用定义的数据.可以理解为标签;

  • 源表来源服务器位置
  • 数据库信息
  • 名称,所有者,源表建立的日期
  • 源表结构 -> 列和名称
  • 源表列 -> 类型,非空规范
  • 源表上定义的可用的主键和外键
  • 源表中的行数和为每一列分配的值

数据分析形式

  • 运营报告和分析
  • 深度和大数据分析
  • 自助式报告和分析
  • 无限制的自组织分析
  • 360°报告
  • 探索性分析
  • 基于文本的分析

喜欢关注一下,不喜欢点评一下