Hadoop是基于JAVA语言开发,具有跨平台性的开源分布式计算平台
HDFS:【分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储 ;
处理超大数据、流式处理、可以运行在廉价商用服务器上(故而设计之初就把硬件故障作为一种常态来考虑,
保证部分硬件故障不影响文件系统的整体可用性、可靠性)等优点】
HBase:【1、提供高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,以HDFS作为底层数据存储;
2、具有强大的非结构化数据存储能力;
3、良好的横向扩展能力:通过不断增加廉价商用服务器来增加存储能力;】
MapReduce:【1、用于大规模数据集( 大于 1 TB )的并行运算,是一种编程模型,
2、把复杂的、运行在 大规模集群上 的并行计算过程 高度抽象 到Map和Reduce两个函数上;
3、核心思想:分而治之(把输入的数据集切分为 若干个 独立数据块 分布式计算处理 再整合);】
Hive【1、基于Hadoop的数据仓库工具;
2、对Hadoop文件里的数据集进行数据整理、特殊查询和分析存储;
3、提供了类似SQL语言的查询语言:Hive QL;】
Mahout:【1、开源项目;
2、提供可扩展的机器学习领域经典算法;
3、实现聚类、分类、推荐过滤、频繁子项挖掘】
Zookeeper:【1、高效可靠的协同工作系统;
2、基本服务:命名服务、状态同步服务、集群管理、分布式应用配置项管理等。】
Flume:【1、高可用、高可靠、分布式海量日志采集、聚合传输系统;
2、定制数据发送方,收集数据,提供对数据的简单处理。】
Sqoop:【1、SQL-to-hadoop的缩写,用于在Hdoop和关系数据库之间交换数据;
2、把关系数据库的数据导入Hadoop或者反行之。
3、为大数据集专门设计,支持增量更新,可以把新纪录添加到最近一次导出的数据源上,或者指定上次修改的时间戳。】
Ambari:【1、支持集群安装、部署、配置和管理,
2、支持大多数Hadoop组件】
Hadoop的特性:【1、高可靠性;
2、高效性;
3、高可扩展性;
4、高容错性;
5、低成本;
6、运行在Linux平台上;
7、支持多种编程语言。】
互联网领域是Hadoop的主要应用阵地。
Hadoop安装配置步骤:1、创建Hadoop用户(命令:useradd,设置密码:passwd);
2、安装JAVA;
3、设置SSH登录权限;
4、单机安装配置;
5、伪分布式安装配置