就在几天前delta lake 2.0 预览版发布了,从功能上来说,官方完全开源了以前一些商业版的特性

包含的一些特性

  • cdf 支持,比较适合数据变动处理
  • z-order ,可以支持更好的查询过滤处理
  • 支持删除列
  • 支持动态分片覆盖

说明

以上只是部分,实际上delta lake 现在已经不依赖spark 也可以进行操作了,现在presto,flink,trino 都已经支持了,很值得学习使用了

参考资料

​https://databricks.com/blog/2022/06/30/open-sourcing-all-of-delta-lake.html​​​​https://delta.io/blog/2022-05-05-delta-lake-1-2-released/​​​​https://delta.io/blog/2022-04-27-writing-to-delta-lake-from-apache-flink/​​​​https://github.com/delta-io/delta/releases​​​​https://docs.delta.io/2.0.0rc1/delta-change-data-feed.html​​​​https://docs.delta.io/2.0.0rc1/optimizations-oss.html#z-ordering-multi-dimensional-clustering​