学习目标:
《开源大数据技术之——openLookeng》
学习与安装部署 华为开源数据虚拟化引擎openLooKeng
学习内容:
项目背景
2020年7月1日] 华为正式宣布开源数据虚拟化引擎openLooKeng,开源社区官网(https://openlookeng.io)同步上线。openLooKeng致力于为大数据用户提供极简的数据分析体验,让用户像使用“数据库”一样使用“大数据”。
2019年11月19日,华为宣布开源数据虚拟化引擎HetuEngine(开源版本的HetuEngine叫openHetu),当日,openHetu正式更名为openLooKeng,HetuEngine更名为LooKengEngine。openLooKeng是一款开源的高性能数据虚拟化引擎。提供统一SQL接口,具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景。同时增强了前置调度、跨源索引、动态过滤、跨源协同、水平拓展等能力。
随着大数据技术的应用和发展,数据种类越来越多,数据分布越来越广,查询场景也越来越复杂,这使得大数据使用更加困难。为了改善大数据的易用性,华为发起数据虚拟化引擎openLooKeng开源项目,旨在解决上述问题:
1)**统一SQL接口访问多种数据源
2)免数据搬迁,在数据所在地对数据进行处理,并且支持跨数据中心、跨云处理
面向交互式、批、流等融合查询的场景(第一个版本支持交互式查询场景**)
3)此外,该项目还提供了Coordinator AA高可靠、可扩展的数据源connector框架等能力,让用户及大数据解决方案伙伴更方便的使用openLooKeng。
openLooKeng使用了业界著名的开源SQL引擎Presto来提供交互式查询分析基础能力,并继续在融合场景查询、跨数据中心/云、数据源扩展、性能、可靠性、安全性等方面发展,让数据治理、使用更简单。
openLookeng社区主页: https://openlookeng.io
openLookeng代码托管地址:
https://gitee.com/openlookenghttps://github.com/openlookeng
项目内容
为实现跨域和跨数据中心的联合分析查询加速,需要一种具备高鲁棒性和高容错性的解决方案
大致方案:
1.跨数据源查询:JDBC 对接MySql,PostgreSQL,TBase、HIve、SparkSQL、H2、HBase、ES
2.SQL算子下推:常用SQL操作下推到数据源执行,如Project,Filter,Aggregrate、Join、Sort、Union、Intersect、Except、Except、Limit、Offset
3.SQL引擎CBO优化(Cost-Based Optimization,基于代价优化)
4.跨数据中心CBO优化
5.最优计算引擎(与计算解耦,将SQL优化、计算下推到不同的计算引擎)
可考虑对接不同类型的分布式计算引擎sparksql,Hive,Flink,Presto为每个SQL挑选最优执行引擎
6.网络传输优化
7.数据安全
8.异构加速
文档完善部分:
Hetu安装与部署(手动,自动)
连接connected配置
HetuHA安装部署
等。。。。。
学习时间:
全天,算法刷题两小时
学习产出:
提示:这里统计学习计划的总量
例如:
1、 技术笔记 1 遍