面对大数据,Hadoop确实有不少优势,但每个企业的技能特点和需求不同,应该在积累经验的基础上,挖掘数据中的“黄金”。淘宝网是中国深受欢迎的网购零售平台,也是国内应用Hadoop最早、最为成功的企业,他们希望从海量的客户数据中挖掘真正的商业价值,进而帮助公司、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,这无疑是淘宝网的核心竞争力之一。而像baidu、中国移动、网易、华为等国内知名企业也纷纷尝试了Hadoop技能,Google、Facebook、雅虎这样著名的国际互联网公司更是Hadoop的最早受益者。

Hadoop:一剂应对大数据的良药

自从Hadoop在2008年作为Apache基金会开源项目发布以来,它就一直让人备感兴奋,原因在于它联合了成本低、可扩展性佳以及无需构建预定义模式就能灵活处理任何数据等优点。

Hadoop如此引人注目,很大程度上是由于用户对大数据存储、管理和分析需求的日渐迫切。大数据是目前很多企业面临的一个挑战,由于数据量相当巨大,而且数据类型异常复杂,特别是非结构化和半结构数据量远超过结构化数据,一些传统的基于关系型数据库的存储和分析办法显露出不足,同时巨大的成本压力已成为很多企业难以承受的负重。Hadoop的出现给人们带来解决大数据问题的希望。

Hadoop是一个具有可扩展性、容错性、源代码开放性等特性的大数据储存和处理平台,其结构主要包括Hadoop分布式文件系统HDFS和MapReduce两局部。HDFS是物理服务器中的文件共享和数据保护方案,属于传统层,有很高的冗余性,已经在各种大型在线服务和大型存储系统中得到广泛应用。MapReduce是物理服务器中的分布式计算框架,用于对海量数据进行并行分析和处理,Hadoop具有高度运行的数据处理能力,可将数据分成很多小的数据块,然后放到Hadoop的集成节点上,每个节点、每个数据块都能够做并行处理。

Hadoop的最大价值

大数据时代需要Hadoop,那么Hadoop的最大价值在哪里呢?其一是能够降低大数据的成本;二是可以提高大数据的价值。Hadoop使企业可以使用精益数据管理,以降低数据成本,这包括:业务成本、硬件成本、人工成本、软件成本、存储成本等。此外,通过易访问性、可操作性、权威性、总体性、平安性、准时性、可信性等特性,Hadoop还能帮助客户增加数据价值。

在IT环境中,Hadoop不可能作为一个孤岛存在。为了让其能够跨越不同平台并成为一种主流技能,用户需要将Hadoop作为他们IT大环境中的一局部来管理。因此许多人寄希望于Hadoop厂商们可以开发出成熟可靠的工具和创新技能,使他们不用学习复杂的MapReduc数据分析、HDFS方案。

一年半前,Informatica就起初进行这方面的研讨,希望借助统一的环境和方法,让用户通过一个易用的单一平台更好地释放Hadoop的潜能,帮助企业实现数据投资回报最大化。

实际上,如今的Hadoop在受到越来越多厂商和用户的追捧后,已经与其诞生之初截然不同:从一个单独的开源软件逐步演变为一个初具规模的生态系统,这个群体中一些有影响力的厂商包括Cloudera、亚马逊、MapR、Hortonworks、DataStax、EMC、IBM、Informatica、微软和甲骨文,他们在这一生态系统中扮演着不同的角色:有系统厂商,也有管理监控服务商、数据分析、处理服务商等等。作为生态系统中的一员,Informatica主要专注于数据集成方面,与Oracle、EMC、SAP等家当链中的成员合作,进行产品认证,开发支持Hadoop架构的软件,帮助用户挖掘数据中的“黄金”。

不要盲目使用Hadoop

与传统的数据库管理系统相比,开源的Hadoop有自己的优势,尤其是它既能处理关系数据库中的结构化数据,同时也能处理诸如音视频等非结构化数据,而且Hadoop系统还能够根据数据的规模和问题的复杂程度轻松地扩展。只是,在决定利用Hadoop构建自己的大数据管理系统之前,一定要确保自己充分明白Hadoop,并且不要盲目跟风。

每个企业都有自己的特殊需求,都有自己的技能条件,如果已经购买了成熟的数据库,没必要丢弃这些产品,应用Hadoop能够从一些小项目着手尝试,积累更多经验。

目前,Hadoop还是一个刚刚起步的市场,大多数客户使用Hadoop是作为辅助和补充,而不是替代传统数据库。而且,不要忘记,在海量数据分析处理方面,Hadoop也不是唯一的,像NoSQL、HBase这类技能也可实现同样的功能。Hadoop正在发展,并将继续演进,我们期待随着大数据需求的不时爆发,Hadoop会越来越成熟。