对于刚开始学习大数据的人来说,清楚的明白大数据的企业架构尤为重要,对于以后的学习有着不可替代的作用,我将分享一下我对大数据架构的一些理解,不足之处,希望谅解。
大数据的技术架构
这是一张大数据架构的图
根据上图,我们可以清楚的了解到大数据的架构分为六层。接下来我将会一一讲解各层作用。
数据源:
数据源顾名思义也就是数据的来源。我们学习的大数据,数据来源一般分为以下三个方面。
互联网:对于互联网,我想大家再清楚不过了,因为我们每天都会去访问互联网。我们可以通过一些工具,比如八爪鱼等工具爬取我们所需要的数据。另外我们还可以通过自己写的爬虫,爬取网上我们想要的数据。
物联网:也就是我们通常所说的传感器,摄像头,冰箱,洗衣机等所产生的数据。
企业数据:这个没有什么好讲的,就是企业业务中积攒下来的数据。
数据收集/准备:
数据已经在那里了,我们当然要进行数据的收集与准备了。
Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
Kafka:Kafks是消息队列,一般接物联网数据。
Sqoop: Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系
型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进
到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库
中。
数据存储:
得到的数据当然要存储起来了。
HDFS:HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。
HBase:H Base是一个开源的非关系型分布式数据库(NoSQL)。
HBase产生背景:
1.HDFS在数据随机访问和实时响应方面的表现并不理想;
2.HDFS是针对大体积文件(128M)来设计的,小文件占用存储和性能,查询慢;
3.HBase具有的有点:
a)合并小文件存储为大文件
b)排序提高检索性能(key-value形式存储)
c)支持MapReduce(HBase不支持join操作,所以支持MapReduce)
资源管理:
Yarn: YARN是从0.23.0版本开始新引入的资源管理系统,进行资源管理和作业调度。
计算框架:
计算框架分为三类。
批处理:MR等
流式处理:Storm等
交互式处理:Presto(因为处理速度快,不适合大批量)
数据分析:
清洗完数据后进行数据分析。
Mahout:(hadoop自带)生产环境一般不用它
Mllib:(Spark)一般比较常用
数据展示:
最后阶段当然就是数据展示了,利用一些工具跟软件将数据漂亮完美的展现出来。
其中有D3,Echart:,Tableau,FineReport(国内市场占用最多的)等等。
大数据的相关热门职业
基于以上大数据的架构,产生可各种各样的工作职位。以下这张图介绍了大数据的相关热门职业。
通过这篇博客,你有没有对大数据的架构有了清晰的认识呢?希望我写的这篇文章对你们有所帮助。因为在我刚开始学习大数据的时候,可是没找到这一类型的。所以今天总结以下,希望对各位有所帮助。