数据虚拟化
数据存储类型:
- 结构化:库表
- 半结构化:html页面
- 非结构化:excel,xml,文本文件,图片,声音
数据存储形式
数据仓库:一个支持管理决策进程的面向主题的,集成的,随时间变化的,永久保存的数据集合;
数据集市:数据仓库的子集,用于提高部分用户的分析性能;
数据中转区:数据暂存区.数据流转:数据源->数据中转区->数据仓库.用于简化数据仓库的数据源集成规则;同时便于数据仓库进行数据清洗,转换;
操作数据存储:数据流转:数据源->数据中转区->操作数据存储->数据仓库.集成变化的最新数据,减少数据仓库的数据变化;
数据湖:一个以数据原始格式保存数据的存储库,使用时再决定具体结构;
通过这些存储方式进行数据分析方式的方式:
拷贝
etl
elt
问题:流程长,时效性差,非操作型实时分析
数据虚拟化
数据虚拟化:一种给数据使用者提供一个统一,抽象,封装的视图,来查询,操作异构数据存储集合中数据的技术.
核心:封装,抽象,数据联合(按需集成),数据集成(合并,转换,清洗)
数据虚拟化服务模型:
设计模型:用于数据定义
元数据规范:转换,清洗,集成规范
运行模型:数据使用者访问虚拟化层使用的模型,核心功能:调度程序,存储引擎,缓存管理,查询优化等;
数据流转流程:
请求方->虚拟化服务api->虚拟表->映射->封装表->源表
源表:时间多源数据的物理存储表
封装表:虚拟化层对于源表数据进行封装所形成的表,也被称为视图
虚拟表:显示数据与封装表映射所形成的表,是具体呈现给请求方的表结构;
元数据
元数据:用于描述数据的数据.便于数据使用定义的数据.可以理解为标签;
- 源表来源服务器位置
- 数据库信息
- 名称,所有者,源表建立的日期
- 源表结构 -> 列和名称
- 源表列 -> 类型,非空规范
- 源表上定义的可用的主键和外键
- 源表中的行数和为每一列分配的值
数据分析形式
- 运营报告和分析
- 深度和大数据分析
- 自助式报告和分析
- 无限制的自组织分析
- 360°报告
- 探索性分析
- 基于文本的分析
喜欢关注一下,不喜欢点评一下