日前,腾讯云专家工程师严俊明老师,在云+社区技术沙龙「云原生」专场,分享了基于腾讯云对象存储 COS 的云原生数据湖最新技术突破,包括云原生数据湖业务场景以及技术架构。
下面,让我们一起回顾下严老师的精彩演讲内容。
1
大数据存储云原生趋势解析
第一阶段:存储一体,孤岛。十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快,磁盘吞吐速度逐渐成为计算瓶颈,本地盘HDFS压力加大,运维成本升高,可网络带宽资源却闲置,导致业务效率低下。
第二阶段:存算分离,存储、计算解耦。 解耦计算和存储负载,系统负载均衡调度更加灵活,系统的资源利用率提高,节约成本,可以满足业务快速增长的需求。
第三阶段:数据湖,存储统一。随着业务多样化发展,业务间数据共享变得困难,而数据湖是一个集中式存储池,支持多种数据源,无缝对接各种计算分析和机器学习平台,实现数据处理与分析,打破数据孤岛。
第四阶段:云原生,计算统一。随着数据湖计算节点调度效率降低,云原生技术能构建和运行可弹性扩展的应用,跨多云构建微服务,持续交付部署业务生产系统。
2
腾讯云对象存储架构及数据湖场景挑战
对象存储 COS 是腾讯云提供的一种存储海量文件的分布式存储服务,具有高扩展性、低成本、高可靠、高可用、EB级扩展能力。通过控制台、API、SDK 和工具等多样化方式,用户可简单、快速地接入 COS,进行多格式文件的上传、下载和管理,实现海量数据存储和管理。
相比传统分布式存储系统,COS 采用超大规模分布式存储引擎:YottaStore,可轻松操控百万级超大规模存储集群。YottaStore突破了单点Master的瓶颈,做到单集群可达百万节点的控制,且不需要拆分元数据。同时,元数据能存得更小,管理得更多,1Byte元数据可以管理2GB的物理空间。
此外,YottaStore是原生多AZ,在资源管理、调度考虑AZ,所有服务器共同承担吞吐,对数据一致性有天然的保障。加上分钟级RTO,RPO为0,可以彻底解放上层业务,数据冗余度低,存储成本大幅度减少。
为了支持以 COS 为中心的大数据存算分离架构以及云端数据湖,Apache Hadoop-3.3.0发布了COSN文件系统,兼容HCFS接口,全覆盖HDFS大数据计算应用。
而数据湖场景面临的主要有3点:
- 元数据延时高
- 元数据非原子性
- 带宽需求大、成本高
3
腾讯云对象存储数据湖三级加速
- 元数据加速技术(用户侧)
文件组织以文件树形式管理,文件拆成块管理,块又会进一步拆解存储到对象存储 COS 上,是一种扁平化结构。支持目录级别并发,分区可扩展,也可跨分区。
加速读操作,尽可能内存化,从内存直接读取数据。
- 缓存加速技术
元数据缓存到计算端(用户侧),提前预热数据,从本地直接读取,减少网络带宽限制,提高访问性能。
提高缓存命中率,提高资源利用率,极大降低网络带宽成本。
支持云原生部署,部署方式灵活
- AZ数据加速技术——COS加速器(存储端)
- AZ Locality
- 专有加速域名访问资源;
- 缓存数据强一致;
- 可以加速Bucket,或者prefix;
- 同一个Bucket,支持多个加速器
- 支持存量Bucket,随时Enable/Disable;
- 如果miss cache,从COS回源
4
EMR On COS 存算分离实践分享
- Hive On COS 存算分离优化实践
hive的例子原本是存算一体架构,数据含有大量的本地化策略、逻辑。可数据上传到 COS 后,不再含有本地逻辑,会重新计算、切分数据大小,map从274个减少到5个,从而提高系统并发,降低系统运行时间。
- Spark On COS 存算分离优化实践
spark采用串行、单线程操作,网路延时过大。存算分离实践对spark进行并发加速,加快单线程操作时间,从而提高spark的运行速度。
以上是严老师分享内容的简要概括,更多精彩内容,可以点击下方视频观看。