传感器、爬虫、激光雷达、摄像头等前端设备和软件,以及大量用户,每天都在往企业内部输入大量非结构化数据,为了保存和维护好数据这个新型的生产要素,企业每年支付用于非结构化数据存储上的成本也在快速增长。

对于大多数企业用户而言,数据具有阶段性热点访问的特点,超过一定时间后,80% 以上的数据逐步转冷。热数据的访问性能要求较高,经过一定时间周期之后,热数据逐渐变冷,应用访问这些冷数据的频率会变得很低。

hdfs冷热分离 冷热数据分离存储_文件存储

如何解决海量非结构化数据存储及访问性能,同时兼顾企业用户对非结构化数据的整体使用成本,是 CIO 们面临的主要问题。

YRCouldFile 文件存储系统的智能分层功能,可以根据用户需要,自定义冷热数据策略,冷数据自动流动至低成本的公有云对象存储并完成压缩,向上仍然为业务提供标准的文件访问接口,并保持目录结构不变,数据在冷热数据层之间流动对业务完全透明,能有效地对成本和性能做好平衡。

近期,焱融科技发布了 YRCloudFile 新版本,该版本对智能分层功能做了全面的升级,将分层策略细粒度到目录级别。例如目录 A 的冷数据下刷到阿里云 OSS,目录 B 的冷数据下刷到AWS 的 S3,目录 C 的冷数据下刷到本地对象存储。

细粒度的分层策略有什么好处呢?

冷数据定义更灵活

众所周知,公有云的对象存储的使用成本,有三部分组成,存储容量费用、API 调用费用、网络流入流出费用。很多时候,API 调用或者网络流入流出费用,往往比存储容量的费用要大的多。

数据趋冷是个逐步的过程,在数据趋冷的过程中,有可能还是会被访问,这部分费用加起来也是一笔支出。YRCloudFile 目录级智能分层功能推出,就能很好的解决这个问题。它能帮助用户对冷热数据的区分更细化,对于趋冷数据,存放入本地对象存储,这部分数据可能还会有少量的访问;对于更冷数据,可以设置目录连接至无限容量的公有云对象存储上以作归档,这部分数据基本不再被调用。

So easy,不同应用,不同策略,不同对象存储厂商

对于数据中心而言,不同的应用,对冷数据的定义是不同的,对数据存放的要求也不同。例如,数据安全要求高的冷数据要求存放在本地;数据安全要求低的数据可以存放在公有云。又如,训练数据在被频繁的训练 2 周之后就不再访问,趋冷;训练结果数据则会在很长的时间段内一直需要频繁访问。

基于不同应用类型以及不同数据安全的考虑,我们也需要更灵活,更简单的策略。YRCloudFile 可以对不同的场景、要求,定义不同的冷数据策略以及冷数据存储的位置。

任性,想存哪里就存哪里

冷数据不再被某家厂商绑定,您可以将冷数据存放在全球范围内的各大公有云对象存储平台上,也可以选择私有部署的商业对象存储,或者开源的 Ceph 等。对接了不同的平台,并不意味使用难度会增加,您可以使用简单的 UI 界面,轻松简单地解决 YRCloudFile 和不同对象存储平台的对接。