目录

  • 1 大数据体系架构图
  • 2 数据采集层
  • 3 数据计算层
  • 4 数据服务层
  • 5 数据应用层


1 大数据体系架构图

大数据系统架构 大数据系统架构层_数据仓库

2 数据采集层

  1. 阿里的的日志采集包括两大体系: Aplus.JS是Web端的日志采集技术方案,UserTrack是APP端的日志采集技术方案;
  2. 在采集技术基础上,阿里用面向各个场景的埋点规范,来满足通用浏览、点击、特殊交互、APP事件、H5及APP里的H5和Native日志数据打通等多种业务场景;
  3. 同时建立了一套高性能、高可靠性的数据传输体系,完成数据从生产业务端到大数据系统的传输;
  4. 在传输方面,采用TimeTunnel(TT),它既包括数据库的增量数据传输,也包括日志数据的传输;作为数据传输服务的基础架构,既支持实时流式计算,也支持各种时间窗口的批量计算;
  5. 另外,通过数据同步工具(DataX和同步中心,其中同步中心是基于DataX易用性封装的)直连异构数据库(备库)来抽取各种时间窗口的数据;

3 数据计算层

  1. 数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的;
  2. 阿里的数据计算层包括两大体系:数据存储及计算云平台(离线计算平台 MaxCompute 和实时计算平台StreamCompute )和数据整合及管理体系(“OneData ”);
  3. 从数据计算频率角度来看,阿里数据仓库可以分为离线数据仓库和实时数据仓库。离线数据仓库主要是指传统的数据仓库概念,数据计算频率主要以天(或小时、周和月)为单位 ,例如每天凌晨处理上一天的数据;但是随着业务的发展特别是交易过程的缩短,用户对数据产出的实时性要求逐渐提高,所以阿里的实时数据仓库应运而生,“双11 ”实时数据直播大屏,就是实时数据仓库的一种典型应用;
  4. 阿里的数据仓库的数据加工链路遵循分层理念,包括操作数据层( Operational Data Store, ODS)、明细数据层( Data Warehouse Detail , DWD)、汇总数据层( Data Warehouse Summary, DWS )和应用数据层( Application Data Store, ADS )。通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理及数据质量处理;
  5. 在阿里大数据系统中,元数据模型整合及应用是一个重要的组成部分,主要包含数据源元数据、数据仓库元数据 、数据链路元数据、工具类元数据、数据质量类元数据等。元数据应用主要面向数据发现、数据管理等,如用于存储、计算和成本管理等;

4 数据服务层

  1. 当数据已被整合和计算好之后,需要提供给产品和应用进行数据消费,因此便有了数据服务层;
  2. 数据服务层通过接口服务化方式对外提供数据服务;
  3. 针对不同需求,数据服务层的数据源可以架构在多种数据库之上,如MySQL和HBase等;
  4. 数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给集团内部各应用使用;
  5. 数据服务层对外提供数据服务主要是通过统一的数据服务平台(OneService), OneService 以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等复杂数据查询服务)和实时数据推送服务3大特色数据服务;

5 数据应用层

  1. 数据已经准备好,需要通过合适的应用提供给用户,让数据最大化地发挥价值;
  2. 数据的应用表现在各个方面,对外如搜索、推荐、广告、金融、信用、保险、文娱、物流等;对内如宏观决策分析支撑平台、流量分析平台、实时数据监控等;