Hadoop是基于JAVA语言开发,具有跨平台性的开源分布式计算平台

 

HDFS:【分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储    ;

                 处理超大数据、流式处理、可以运行在廉价商用服务器上(故而设计之初就把硬件故障作为一种常态来考虑,

                 保证部分硬件故障不影响文件系统的整体可用性、可靠性)等优点】

 

HBase:【1、提供高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,以HDFS作为底层数据存储;

               2、具有强大的非结构化数据存储能力;

               3、良好的横向扩展能力:通过不断增加廉价商用服务器来增加存储能力;】

 

MapReduce:【1、用于大规模数据集(  大于  1 TB  )的并行运算,是一种编程模型,

                        2、把复杂的、运行在    大规模集群上    的并行计算过程     高度抽象   到Map和Reduce两个函数上;

                       3、核心思想:分而治之(把输入的数据集切分为   若干个  独立数据块   分布式计算处理   再整合);】

 

Hive【1、基于Hadoop的数据仓库工具;

           2、对Hadoop文件里的数据集进行数据整理、特殊查询和分析存储;

           3、提供了类似SQL语言的查询语言:Hive  QL;】

 

Mahout:【1、开源项目;

                   2、提供可扩展的机器学习领域经典算法;

                   3、实现聚类、分类、推荐过滤、频繁子项挖掘】

 

Zookeeper:【1、高效可靠的协同工作系统;

                      2、基本服务:命名服务、状态同步服务、集群管理、分布式应用配置项管理等。】

 

Flume:【1、高可用、高可靠、分布式海量日志采集、聚合传输系统;

               2、定制数据发送方,收集数据,提供对数据的简单处理。】

 

Sqoop:【1、SQL-to-hadoop的缩写,用于在Hdoop和关系数据库之间交换数据;

               2、把关系数据库的数据导入Hadoop或者反行之。

               3、为大数据集专门设计,支持增量更新,可以把新纪录添加到最近一次导出的数据源上,或者指定上次修改的时间戳。】

 

Ambari:【1、支持集群安装、部署、配置和管理,

                2、支持大多数Hadoop组件】

 

Hadoop的特性:【1、高可靠性;

                               2、高效性;

                               3、高可扩展性;

                               4、高容错性;

                               5、低成本;

                               6、运行在Linux平台上;

                               7、支持多种编程语言。】

 

互联网领域是Hadoop的主要应用阵地。

 

Hadoop安装配置步骤:1、创建Hadoop用户(命令:useradd,设置密码:passwd);

                                      2、安装JAVA;

                                      3、设置SSH登录权限;

                                      4、单机安装配置;

                                      5、伪分布式安装配置