这几天接触了 OpenStack和Docker - 一个是比较成熟的云平台,另外是一个发展中的,增长很迅速的新云平台,其中的一个问题又引发我的深思。

问题: 云平台与大数据平台Hadoop怎么进行融合?

先说一下云平台的几个概念:计算(Compute),存储(Storage),网络(Network).

关于存储,在云上的管理一大部分是共享存储,如磁盘阵列什么的。当然也可以是由很多台机器的在线磁盘组成,不过那样的话,管理及性能都会是一个很大的问题。

与云平台最相关的是大数据的应用。我们知道光有云平台,没有应用,也不可能有存在的价值。而大数据的应用,也在很大程度上促进了云的发展。而谈到大数据,那一定会谈到Hadoop这个处理大数据的平台。

Hadoop集群来讲,设计的初衷之一是以水平扩展能力的提高来取作垂直扩展能力的提高。因为重直扩展是昂贵的,有限的(比如一台PC机,现在替换成一台服务器,再逐渐被替换为小型机),而水平扩展(如一台PC机,水平扩展成2台PC,n台PC). 水平扩展的成本更低,扩展更平滑。

这样看起来,对于云平台与大数据,他们走的是不一样的道路。

下面是一般的
云平台:
一系列低中高性能服务器 + 中高性能共享存储 + 高速网络

大数据:
一系列低中性能服务器 + 机器自身存储 + (中低性能共享存储) +中低速网络

相信国内的大部分公司的IT设施相对来说还是比较简单,便宜,这是因为成本的考虑。同时,这些公司也有非常强烈的大数据的使用需求(这是一个与大公司进行平等竞争的有力武器). 那怎么样服务这些公司,叫他们又能使用大数据,同时使用维护成本能够保持在较低水平呢?
这也是很多公司正在做的。

而对于云公司来说,在云上运行大数据的效率并不是很理想,这在很大程度上影响了使用云平台大公司的ROI, 这其实主要是云公司需要解决的一个很重要的问题。