这篇文章是我一年半以前写的文章,内容比较简单,没有长篇大论,就是几个对大数据技术的判断。现在翻出来看一看,觉得当初自己简单的想法,现在还是成立的。今天发出来,希望和同学们一起再探讨一下。
下面是华丽丽的分界线:
1,平台选数据仓库还是hadoop
甘特把大数据定义为三个V(高容量,髙速度,多类型),主要讲的是数据量大的问题,传统的数据库在处理结构化,容量有限的数据有非常大的性能优势。碰到数据量大到一定程度,且对实时性要求不高的话,hadoop平台在稳定性方面有很大优势。传统数据仓库普遍存在价格高,稳定性一般的问题。
2,no SQL的含义
开源一直争论的No SQL,有不同的解读,有开始的no SQL,到后面的not only SQL,到google推出最新的f1数据库,no sql又变成no time to support SQL。传统数据仓库如果很好的解决了扩展性和稳定性,发展空间还是非常大的。acid在大数据时代仍能有普遍存在的意义。
3,sql语言大数据时代作用是否减弱
可能有人认为sql语言过时了,但是从最开始的hive,到impala,无一不把对sql的支持放在重要的位置。SQL语句易于理解,方便对象映射以及自动生成的众多优点,让sql焕发持续的生命力。
4,一体机还是云
这是两种完全不同的思路,传统数据库厂商无一例外大力推一体机,软件硬件的钱一起赚。另外一种思路常见于有实力的互联网公司,如google,baidu,taobao用普通的硬件构建自己的私有或公有云。如果只是传统行业,一体机短期看会是个不错的选择,方便,投资可控,见效快。 长期来看,软件层面要有能力屏蔽专门的硬件差异。通用服务器的发展会快于专用服务器。同样云的发展会快于一体机。云才是未来的方向。
5,存储的发展
天下分久必合,磁阵从主机中分离出来,随着分布式文件系统的发展,会逐渐又回到通用服务器上,高端存储的生命力应该还会顽强很长时间,低端存储被取代指日可待呀。