1、什么是数据:
- 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。
- 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。
- 在计算机系统中,数据以二进制信息单元0,1的形式表示。
2、什么是大数据:
- 指的是用传统的数据处理应用软件不足以处理(处理:存储和计算)的大而复杂的数据集 。
- 最基本的衡量:大小,当然不仅仅是大小(主要有4大特点:容量大、种类多、速度快、价值高)
- 大数据特点 :容量大,种类多,速度快,价值高
- 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息 新浪微博,3 亿用户,每天上亿条微博 朋友圈,8 亿用户,每天亿级别朋友圈
- 种类(Variety):数据类型的多样性,包括文本,图片,视频,音频; 结构化数据:可以用二维数据库表来抽象,抽取数据规律 ,半结构化数据:介于结构化和非结构化之间,主要指 XML,HTML 等,也可称非结构化 ,非结构化数据:不可用二维表抽象,比如图片,图像,音频,视频等
- 速度(Velocity):指获得数据的速度以及处理数据的速度 数据的产生呈指数式爆炸式增长 处理数据要求的延时越来越低
- 价值(Value):合理运用大数据,以低成本创造高价值 综合价值大,隐含价值大 单条数据记录无价值,无用数据多
- 说明:(1)、数据量大,处理难度大,但是蕴含价值也大( 2)、数据种类多样,更加个性化,针对不同数据源进行多样化的方式处理,结果更精确 (3)、要求对数据进行及时处理,追求更极致更完善的用户体验 (4)、数据成为新的资源,掌握数据就掌握了巨大的财
- 大数据价值: 在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数据集 合并后 进行分析可得出许多额外的信息和数据关系性,可用来政治经济国庆调控、察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等,这样的用途 正是大型数据集盛行的原因
3、Hadoop简介
3.1.Hadoop 的产生背景
- Hadoop 最早起源于 Nutch。Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网 页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题 ——如何解决数十亿网页的存储和索引问题 。
- 2003 年、2004 年谷歌发表的3篇论文为该问题提供了可行的解决方案
- 1、分布式文件系统 GFS,可用于处理海量网页的存储--->HDFS
- 2、分布式计算框架 MapReduce,可用于处理海量网页的索引计算问题
- 3、分布式数据库 BigTabl,每一张表可以存储上 billions 行和 millions 列---->HBase
- Nutch 的开发人员完成了相应的开源实现 HDFS 和 MapReduce,并从 Nutch 中剥离成为 独立项目 Hadoop,到 2008 年 1 月,Hadoop 成为 Apache 顶级项目,迎来了它的快速发 展期
3.2.什么是 Hadoop?
- 1、Hadoop 是 Apache 旗下的一套开源软件平台
- 2、Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
- 3、Hadoop 的核心组件有
- A.Common(基础功能组件)(工具包,RPC 框架)JNDI 和 RPC
B.HDFS(Hadoop Distributed File System 分布式文件系统)
C.YARN(Yet Another Resources Negotiator 运算资源调度系统)
D.MapReduce(Map 和 Reduce 分布式运算编程框架) - 4、广义上来说,Hadoop 通常是指一个更广泛的概念--Hadoop 生态圈
- 5、官网介绍:http://hadoop.apache.org/
3.3.hadoop的发行版
* apache hadoop: 2008年,初学者入门,简单易入手
* cloudera hadoop: 2009年,企业中使用 CDH,性能强
* hortonworks hadoop: 2011年,文档全面
* hortonworks 和 cloudera 2018年国庆合并
3.4 hadoop生态圈
核心组件:
- RPC:主管这个整体中的多台服务器之间的网络通信
- HDFS:分布式文件系统,用来解决超大文件的存储问题
- MapReduce:分布式并行计算框架,用来解决超大文件的计算问题
- YARN:如果我碰到一个超大的超级复杂的计算业务,那么需要很多的计算资源来执行计算,就是为对应的用户的庞大复杂计算任务提供计算资源的
重点组件:
- RPC:主管这个整体中的多台服务器之间的网络通信
- HDFS:Hadoop 的分布式文件存储系统
- YARN:运算资源调度器
- MapReduce:Hadoop 的分布式程序运算框架,也可以叫做一种编程模型
- Hive:基于 Hadoop 的类 SQL 数据仓库工具
- HBase:基于 Hadoop 的列式分布式 NoSQL 数据库
- ZooKeeper:分布式协调服务组件
- Mahout:基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库
- Oozie/Azkaban:工作流调度引擎
- Sqoop:数据迁入迁出工具
- Flume:日志采集工具
3.5 分布式和集群区别
集群:多台服务器方式,每台机器都可以独立完成作业。
分布式:多台服务器共同完成一个(或多个)作业。
- 大数据技术领域的各类技术框架基本上都是分布式系统
- A.集群 + 负载均衡 :解决压力,每个节点都可以解决这一个问题。
- B.分布式 :1、 该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或 模块之间通过网络通信进行协作,实现最终的整体功能 ;2、 比如分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件 系统和分布式数据库系统等。
- 总结:利用多个节点共同协作完成一项或多项具体业务功能的系统就是分布式系统。