在不同的业务场景下,需要根据实际的业务需求,选择适合自己的技术框架,来搭建自己的大数据架构体系。但是从技术架构体系的共性来说,是可以从通用的技术模块去理解,来帮助我们更好地理解大数据技术架构的。

  大数据分析技术架构通用模块

  数据收集模块:主要负责收集各种数据源的数据,包括日志文件、网络请求、数据库、消息队列等,并将这些数据转换为文件或者消息向后传递。

  数据转存模块:主要负责将数据定时传递到分布式存储或者实时传递给下游的数据处理程序。

  ETL模块:主要负责数据的清洗、格式和内容的处理和转换、数据分级分拣、加载至数据仓库等。

  数据仓库模块:这是整个架构的核心,数据仓库是数据有组织的集中存储的地方,负责数据的存取和管理。

  元数据管理模块:主要负责记录和约束数据仓库中数据的含义和格式,控制着数据的生命周期和数据质量。

  分析引擎模块:数据分析师交互最多的模块,主要负责执行各种分析语句或代码,完成各种分析任务。

  作业管理与调度模块:负责分析作业的管理和定时调度,包括作业的增删改查、查看修改历史、设置调度定时和执行引擎等。

  资源分配与调度模块:主要负责在多作业同时运行的场景下,有效协调和分配集群的资源,使资源利用率最大化。

  大数据是以数据为原材料,利用多种技术手段,得出有价值的信息,目前,大数据市场十分火爆,在社会治理和企业管理等领域起到不容忽视的作用。