目录

一、数据集市简介

1.1、数据集市与数据仓库

二、数据集市的类型

2.1. 依赖数据仓库

2.2. 独立数据集市

2.3. 混合数据集市

三、数据集市的特点

四、实施数据集市的步骤


一、数据集市简介

数据集市就是企业级数据仓库的一个子集,它主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

数据集市,本质是用来满足特定部门或者用户的需求,按照多维的方式进行存储。通过对相似数据业务场景内聚进行抽象分类,以降低ADS层重复建设和数据管理复杂度,让应用研发更聚焦更高效。

1.1、数据集市与数据仓库

数据仓库是一个包含来自多个主题流的数据集合的仓库。数据仓库也称为中央或企业数据仓库。因此,在某些情况下,数据仓库的来源将是多个,而数据集市是数据仓库的一个子集。

带有数据集市的数据仓储结构:

数据集市的技术架构 什么叫数据集市_数据集市

在数据结构上,数据仓库是面向主题的、集成的数据的集合。而数据集市通常被定义为星型结构或者雪花型数据结构,数据集市一般是由一张事实表和几张维表组成的。

数据集市的技术架构 什么叫数据集市_数据集市的技术架构_02

二、数据集市的类型

2.1. 依赖数据仓库

依赖数据集市纯粹来自数据仓库,所有分组的依赖将形成企业数据仓库。它纯粹是数据仓库的一个子集,因为它是从中央 DW 创建的。

2.2. 独立数据集市

这不是从中央数据仓库创建的,其来源可能不同。大多数独立数据集市被较小的组织使用,其来源也有限。当我们需要在相对较短的时间内获得解决方案时,通常会创建独立数据集市。

2.3. 混合数据集市

混合数据集市将允许您将来自中央数据仓库 DW 以外的所有其他来源的数据分组。

三、数据集市的特点

以下是一些功能:

  • 由于数据源集中于主体,因此通过使用它可以提高用户响应时间。对于经常需要的数据,使用数据集市将是有益的,因为它是中央 DW 的子集,因此数据大小会更小。
  • 由于数据量有限,与中央 Dws 相比,处理时间将大大减少。
  • 与数据仓库相比,可以非常快速有效地适应模型中的变化。

四、实施数据集市的步骤

设计

这将是实施的第一步,其中确定了收集技术和业务信息所需的所有任务和来源。稍后实施逻辑计划,经过审查,这将转换为物理计划。此外,这里决定了数据的逻辑和物理结构,例如如何分区数据和分区字段,如日期或任何其他文件。

集市划分的原则有以下两点:

原则一:以业务场景或者服务对象作为划分原则,对相似数据业务场景内聚抽象进行分类。

原则二:集市划分需要统一标准,尽量符合MECE原则。

施工
这是实施的第二个阶段,在 RDBMS 的帮助下生成物理数据库,被确定为设计过程和逻辑结构的一部分。创建所有对象,如schema、索引、表、视图等。

填充
这是第三阶段,这里在获取数据时将数据填充到其中。所有必需的转换都在填充数据之前实现。

访问
这是实施的下一步,我们将使用填充的数据进行查询以创建报告。最终用户使用此步骤来了解使用查询的数据。

管理
这是数据集市实施的最后阶段,这里处理各种任务,例如访问管理、系统优化以及调整、管理和向数据集市添加新数据以及规划恢复场景以处理任何故障情况。