Druid 是一款极高性能的数据库服务,以往的社区工作大多集中在提升大规模实时数据处理和历史数据查询等核心能力上。最近,相对于整体架构的核心升级,同时还照顾了一些“轻松”的方向,来帮助用户快速提升使用Druid的工作效率。
在此版本中,有2个关键增强功能可简化Druid的使用:
1. 一个新的Data Loader,通过提供点击式UI和自动预览,极大地简化了构建数据提取管道的过程。
2. 继续推进Druid的SQL功能以简化查询,此外SQL已经逐渐的升级到完整支持的状态。
其他方面,例如在Kafka,ORC,Google Cloud和Scan查询类型方面进行了一些改造和优化。0.15.0版本具有250多项新功能和性能/稳定性/文档增强功能。与往常一样,请访问Apache Druid下载页面以获取该软件和发行说明。
01
一个新的Data Loader
Apache社区对Druid的一个共同需求是简化数据摄取过程,在本版本之前这个过程是需要手动配置数据摄取任务的。为了使数据摄取更容易,我们添加了一个点击式UI来协助这项工作,称之为Data Loader。
Data Loader 将指导您完成构建数据摄取管道,以及对数据进行分区所需的关键步骤。在逐步完成每个步骤时,Data Loader在后台构建摄取控制命令文本规范。每次更改时,它都会向Druid发送一个临时规范,该规范会返回数据在摄取后的真实预览。这允许您通过交互式查找和修复错误来轻松的调试数据摄取管道。所有相关的分区和调优步骤都使用内联文档和默认值进行注释。
需要注意的是,在Apache Druid 0.15.0中的Data Loader只能加载基于文本的批处理数据,但是为了获得“更美好”的功能,我们已经在开发Kafka,Kinesis和其他源的实时数据的Data Loader功能。这些支持会在后续的版本中逐渐放出。如果您现在就要对接这些实时数据,可以参考使用Apache Druid Kafka Indexing Service或其他Druid的服务来完成实时数据的加载。
02
Druid 的 SQL 能力的增强
Apache Druid在0.10.0版本推出了实验性的Druid SQL, 现在它可以作为一个标准的查询接口,你几乎可以抛弃以往的使用Druid经典查询方法(JSON and RestAPI)的方式来获得查询结果。这对Looker,Tableau等其他众多的第三方软件提供了非常强大的数据访问能力。
从0.10.0版本开始,Druid的每一个版本都在完善对SQL的支持能力,在0.15版本中也不例外。关键字上,现在已经支持了LPAD, RPAD, DEGREES, RADIANS, STRING_FORMAT, PARSE_LONG, ROUND, SIN, COS, TAN和其他一些三角函数算法。同时,我们还添加了一个SQL编辑器(还提供自动提示功能哦!)
在未来的版本中,我们还会放出更多的SQL能力,包括多维分析,Theta Sketch Intersection 和Difference 以及更多的标准SQL支持外围能力。
除了上面提到的主要项目之外,此版本中的一小部分其他值得注意的项目还包括:
ORC文件格式被正式支持为核心扩展。它现在还支持通过新的orc parseSpec和flattenSpec来扁平化嵌套数据。相关文档请参考:
https://druid.apache.org/docs/latest/development/extensions-core/orc.html
Google云端存储现已正式支持作为核心扩展,用于深度存储和本机批量提取。相关文档请参考:
https://druid.apache.org/docs/latest/development/extensions-contrib/google.html
最后,来一波系统新UI的截图,不得不说,这个UI,做的还是很漂亮的,已经大大的超出了众多Apache 项目的管理界面UI水平:
一
系统主UI
二
Data Loader UI
三
数据预览UI
四
数据源UI
五
数据Retention UI
六
Segment 文件UI
七
任务UI
八
Historical 服务UI
九
Druid SQL UI
最后,再来一个王炸功能,现在可以在UI上对Look Up(OLAP字段翻译)功能进行操作
参考文章: