如果不知道分布式存储,肿么办?
没关系,带上小板凳,来听我跟你好好聊聊。
▉ 存储进阶史
要深入理解分布式存储,我们需要先了解下存储技术的发展史。
在1945年,冯·诺依曼提出了存储程序逻辑架构,现有的计算机都遵循"冯·诺依曼体系架构",具体如下图:
冯·诺依曼体系架构
通常把运算器和控制器合并为中央处理器(CPU),内部小容量的存储提供快速访问,外部存储器提供大量的存储空间。
在不同的计算机时代,我们可以依照冯诺依曼体系结构来划分存储。
在单机计算时代(大型机、小型机、微机),内部存储器可以理解为内存(即Memory),外部存储可以理解为物理硬盘(包括本地硬盘和通过网络映射的逻辑卷)。
外挂存储根据连接的不同方式有可以分为:直连式存储(Direct-Attached Storage,简称DAS)和网络化存储(Fabric-Attached Storage,简称FAS);
而网络化存储根据传输协议又分为:NAS(Network-Attached Storage)和SAN(Storage Area Network)。
这些概念的很容易混,大家千万别晕,画个图大家看得更明白一些:
▉ DAS、NAS和SAN有何区别?
了解了存储产品分类,接下来我们来看下DAS、NAS和SAN三者有什么区别?
在90年代之前,由于存储需求有限,外部存储基本都是采用的直连方式(DAS)。DAS目前在很多中小企业中依然很常见,PC中的硬盘或只有一个外部SCSI接口的JBOD都属于DAS架构。
DAS一般使用专用线缆(例如SCSI)连接到服务器内部总线上,存储设备只与一台独立的主机连接。
DAS的好处是连接简单、易于配置且安全、可靠,费用低,但扩展能力差且无法共享。
为了解决外部存储共享和扩展的问题,NAS和SAN络存储相继出现。
NAS通常是指为用户提供文件存储服务的共享网络存储,支持NFS、SMB/CIFS等协议。
NAS大大提高了存储的安全性、共享性和成本。但是I/O(输入输出)渐渐成为性能瓶颈,为了解决这个难题,出现了SAN。
SAN是在NAS基础上做的演进。它通过专用光纤通道交换机访问数据,采用ISCSI、FC协议。
如上图,如果说SAN可以理解是一块网络硬盘的话,NAS基本上已经像一台独立的服务器了。
目前很多家庭都开始使用小型NAS设备,相当于一个小型服务器。目前国内比较主流的NAS厂商有群晖、威联通等。
NAS和SAN共享网络存储,极大的提高了存储资源的利用率,统一集中管理模式降低了存储运维成本,提供了丰富的企业级存储解决方案。
但NAS、SAN存储也有自己的缺点,其主要性能受控制器的影响,虽然在扩展能力方面相比DAS有了明显提升,但仍然有限,在PB级以上的需求就无能为力。
同时,设备到了生命周期要进行更换,数据迁移需要耗费大量的时间和精力,于是分布式存储应运而生!
▉ 什么是分布式存储?
接下来就是本篇文章的重点了——分布式存储。
随着互联网行业的发展,人们对存储的需求越来越大,采用集中式的存储成为数据中心系统的瓶颈,不能满足大规模存储应用的需要。
受益于服务器技术的发展和成熟,与标准服务器的分布式存储开始出现,分布式存储开始被广泛的应用起来。
分布式存储就是将数据分散存储到多个存储服务器上,并将这些分散的存储资源构成一个虚拟的存储设备,实际上数据分散的存储在企业的各个角落。分布式存储的好处是提高了系统的可靠性、可用性和存取效率,还易于扩展。
为了便于大家理解,这里打个简单的比方。我们可以将数据比作成货物,存储比作成拉货的卡车货,直连存储就相当于用普通货车拉货。
随着存储需求的逐渐增多,为了提升拉货的效率,我们就得不断的对卡车进行升级,变成更大型的货车,才能满足需求,这种扩展就相当于Scale up(纵向扩展)方式。
Scale up的优势是扩展简单,成本增长较慢,但是扩展能力有限,很难满足大容量存储的需求。
于是随着业务量的持续增长,扩展单机能力已经不能解决当前的问题,需要Scale-out,这也就是分布式存储系统。
分布式存储就像我们的拉货的货车,改用一节一节连接起来的火车拉货,当不能满足存储需求的时候,我们只需要添加一节一节的车厢就能满足需求了。
分布式系统的出现是让企业客户可以用普通的服务器完成单个计算机无法完成的计算、存储任务。让企业用户可以利用更多的普通机器,处理更多的数据需求。
▉ 分布式存储的优势
最后我们来汇总看下分布式存储额优势:
1、易于扩展
得益于合理的分布式架构,分布式存储可预估并且弹性扩展计算、存储容量和性能。
2、高性能
一个具有高性能的分布式存储通常能够高效地管理读缓存和写缓存,并且支持自动的分级存储。
3、支持分级存储
由于通过网络进行松耦合链接,分布式存储允许高速存储和低速存储分开部署,或者任意比例混布。
4、多副本一致性
与传统的存储架构使用RAID模式来保证数据的可靠性不同,分布式存储采用了多副本备份机制,最小化对业务的影响。
5、存储系统标准化
随着分布式存储的发展,存储行业的标准化进程也不断推进,分布式存储优先采用行业标准接口(SMI-S或OpenStackCinder)进行存储接入,用户可以实现跨不同品牌、介质地实现容灾,从侧面降低了存储采购和管理成本。
▉ 最后总结
分布式存储是一个大的概念,其包含的种类繁多,除了传统意义上的分布式文件系统、分布式块存储和分布式对象存储外,还包括分布式数据库和分布式缓存等。
本文局限在分布式文件系统等传统意义上的存储架构,接下来的文章我们将详细的介绍主流的分布式存储技术(HDFS、Swift和Ceph等)。