数据仓库-Hadoop

  • 大数据定义
  • Hadoop简介
  • Hadoop构成
  • Hadoop主要特点
  • Hadoop架构
  • Hadoop基本组件


大数据定义

所谓大数据就是这样一个数据集合,它的数据量和复杂度是传统数据处理应用无法应对的。

大数据带来的挑战包括:数据分析、数据捕获、数据治理、搜索、共享、存储、传输、可视化、查询、更新和信息安全等。

大数据更像是一套处理数据的方法和解决方案。

换句话说普通软件没办法可以在容忍的时间范围内完成大数据的捕获和处理。

现在普遍认可的大数据具有4V
volume 数据量大
velocity 速度快
variety 数据多样
veracity 数据真实和高质量

Hadoop简介

Hadoop较早用来处理大数据集合的分布式存储计算基础架构。
最早由Apache软件基金会开发。
用户可以在不了解底层的细节的情况下,开发分布式程序。充分利用集群威力。

简单说,Hadoop是一个平台。
Hadoop软件库是一个计算框架,在此框架下可以使用一种简单的编程模式,通过多台计算机构成集群。分布式处理大数据集。

Hadoop构成

4个基本模块
Hadoop基本功能库,支持Hadoop模块通用程序包。
HDFS分布式文件系统,提供高吞吐量访问应用的数据。
YARN作业调度和资源管理框架
MapReduce基于YARN的大数据并行处理程序。

除了以上基础模块,还包含其他项目:
暂不一一列举

Hadoop主要特点

扩容能力
成本低
高效率
可靠性

Hadoop架构

一个小规模的Hadoop集群包含一个主节点和多个从节点。

Hadoop基本组件

HDFS
YARN
Mapreduce

HDFS
HDFS是一个运行在通用硬件设备上的分布式文件系统。
高度容错的,在廉价的硬件上部署。

HDFS提供高吞吐量访问应用数据的能力,非常适合拥有大数据集的应用。
HDFS方可了一些POSIX需求,允许对文件系统数据的流式访问。