文章目录
- 说明
- 分享
- 大数据存储特性和要求
- 特性
- 要求
- 大数据存储现状
- hadoop系
- 优点
- 缺点
- 非hadoop系
- 优点
- 缺点
- 总结
说明
- 本博客每周五更新一次。
- 大数据存储是大数据平台的基石,数据的存储方式直接决定数据使用效率,平台的搭建与维护成本。
- 所有内容理论为主,不牵涉太多专业知识,目标是简单易懂。
分享
- 大数据博客列表
大数据存储特性和要求
特性
- 大数据存储基本依托分布式架构(大于一台服务协同完成存储和计算的架构),将数据拆分后存储到多台服务器。
- 为实时掌控各服务器任务状态、数据存储情况,指定某台服务器作为管理者,考虑到管理者有可能遇到意外关机或坏死,另外指定一台服务器作为监控者,实时同步管理者的信息数据,当管理者关机,监控者自动成为新管理者,当旧管理者恢复开机后,角色自动变为监控者。
- 除了管理者和监控者外,其他都是执行者,负责具体数据的存储和任务执行,并定时向管理者汇报自身相关信息。
- 部分架构可能略有不同,大同小异,核心都是利用多态服务器实现数据存储和计算。
要求
- 大数据平台必须高效稳定,能存储大量数据,并确保数据高效录入,部分服务器宕机或坏掉,数据和任务不受影响。
- 平台支持动态扩容,当集群资源不满足计算需要,根据需要为集群增加新空间
- 平台支持指定数据格式存储,存储数据时自动压缩。
大数据存储现状
- 当前接触到的大数据存储主要分为两部分,hadoop系和非hadoop系
hadoop系
- 绝大多数大数据平台基于hadoop搭建,除了自身HDFS分布式存储系统,hadoop之上同样构建了丰富的存储服务(软件),
- 普通数据库:hive、impala、pig等,列存储数据库:hbase,它们构建于HDFS上,通过HDFS已有数据分发和备份机制,实现数据存储的高效稳定。
优点
- HDFS背书,数据可靠性较高
- hadoop平台可选择类型服务多,支持丰富的功能扩展
缺点
- hadoop软件庞大,搭建和维护成本较高
非hadoop系
- 这类存储有自己独立的数据存储系统,自主完成数据的可靠存储。如greeplum、clickhous等。
优点
- 软件安装维护简单,依赖少。
缺点
- 功能单一,不支持除自身功能外其他服务扩展
总结
- 大数据存储是大数据平台的重心,数据是一起服务的基础,每种数据存储类型,都有合适的应用环境,没有绝对优劣,合适的需求,使用合适的技术,就是最好的。
- 以上个人愚见,品读即可。