文章目录

  • 说明
  • 分享
  • 大数据存储特性和要求
  • 特性
  • 要求
  • 大数据存储现状
  • hadoop系
  • 优点
  • 缺点
  • 非hadoop系
  • 优点
  • 缺点
  • 总结


说明

  • 本博客每周五更新一次。
  • 大数据存储是大数据平台的基石,数据的存储方式直接决定数据使用效率,平台的搭建与维护成本。
  • 所有内容理论为主,不牵涉太多专业知识,目标是简单易懂。

分享

  • 大数据博客列表

大数据存储特性和要求

特性

  • 大数据存储基本依托分布式架构(大于一台服务协同完成存储和计算的架构),将数据拆分后存储到多台服务器。
  • 为实时掌控各服务器任务状态、数据存储情况,指定某台服务器作为管理者,考虑到管理者有可能遇到意外关机或坏死,另外指定一台服务器作为监控者,实时同步管理者的信息数据,当管理者关机,监控者自动成为新管理者,当旧管理者恢复开机后,角色自动变为监控者。
  • 除了管理者和监控者外,其他都是执行者,负责具体数据的存储和任务执行,并定时向管理者汇报自身相关信息。
  • 部分架构可能略有不同,大同小异,核心都是利用多态服务器实现数据存储和计算。

要求

  • 大数据平台必须高效稳定,能存储大量数据,并确保数据高效录入,部分服务器宕机或坏掉,数据和任务不受影响。
  • 平台支持动态扩容,当集群资源不满足计算需要,根据需要为集群增加新空间
  • 平台支持指定数据格式存储,存储数据时自动压缩。

大数据存储现状

  • 当前接触到的大数据存储主要分为两部分,hadoop系和非hadoop系

hadoop系

  • 绝大多数大数据平台基于hadoop搭建,除了自身HDFS分布式存储系统,hadoop之上同样构建了丰富的存储服务(软件),
  • 普通数据库:hive、impala、pig等,列存储数据库:hbase,它们构建于HDFS上,通过HDFS已有数据分发和备份机制,实现数据存储的高效稳定。

优点

  • HDFS背书,数据可靠性较高
  • hadoop平台可选择类型服务多,支持丰富的功能扩展

缺点

  • hadoop软件庞大,搭建和维护成本较高

非hadoop系

  • 这类存储有自己独立的数据存储系统,自主完成数据的可靠存储。如greeplum、clickhous等。

优点

  • 软件安装维护简单,依赖少。

缺点

  • 功能单一,不支持除自身功能外其他服务扩展

总结

  • 大数据存储是大数据平台的重心,数据是一起服务的基础,每种数据存储类型,都有合适的应用环境,没有绝对优劣,合适的需求,使用合适的技术,就是最好的。
  • 以上个人愚见,品读即可。