file

引言

在大数据时代,企业面临着数据集成和实时处理的挑战。Apache SeaTunnel 和 Apache Doris 的结合提供了一种解决方案,使得企业能够快速搭建批流一体的数据仓库,全面取代传统的 Lambda 架构。本文将详细介绍 Apache SeaTunnel 的特点,在数据集成领域的核心技术原理,从集成开发到数据分析开发的实践技巧,以及如何利用 Apache SeaTunnel实现数据的高效同步至 Apache Doris,与 Apache Doris 的结合优势以及未来的发展规划,带来了深刻的技术见解和行业趋势分析。

Apache SeaTunnel介绍

Apache SeaTunnel 是一个新一代实时多源数据同步工具,被誉为大数据高速公路。它支持160+数据源,能够实现批流一体的数据集成。作为一个开源项目,它在 GitHub 上拥有8.1k的高星标,显示了其受欢迎程度。SeaTunnel 能够连接上百种源数据库/地点,实现数据同步与集成,目标数据库/地点包括但不限于 Druid、Redis、Hive、Iceberg、Kudu、HBase 等。与传统解决方案相比,如 DataX,SeaTunnel 在性能上快了30%,甚至在某些场景下快 30 倍。

file

生态工具Connectors

Apache SeaTunnel 支持超过 160+ 的 Connectors,用户可以通过搜索“SeaTunnel connector”在 Google 或 seatunnel.apache.org 上找到相关信息。

典型案例

JPMorgan & Chase,作为美国最大的商业银行,使用 Apache SeaTunnel 解决了多云异构环境下的数据同步问题,将 AWS Aruora、DynamoDB、SFTP 数据实时同步到 ES、S3、Snowflake 下。这一解决方案处理了日均记录数量级上千亿,日均数据量在 100TB 以上的数据集群。

file

SeaTunnel+Doris快速搭建批流一体数据仓库

Apache Doris 与 Apache SeaTunnel 的结合,提供了一种全面淘汰 Lambda 架构的解决方案。传统的 Lambda 架构存在痛点,如批和流开发需要两套代码,流处理完成后批处理还需要覆盖一遍,以及当日实时数据第二天会变化等问题。

file

而 Apache Doris+SeaTunnel 的组合,通过贴源层采用全实时架构,原子层数据也来自实时贴源层,指标层采用实时物化视图,可以复用汇总层数据,从而实现实时指标不需要二次计算。

实时数仓的最佳组合

Doris(SelectDB) x SeaTunnel(WhaleTunnel) x DolphinScheduler(WhaleScheduler) 的组合,可以实现多种数据源的实时获取,一读多写的模式实时写入仓库,也可以进入数据湖,通过 Doris 外表模式加载实现实时指标层场景。

file

Apache SeaTunnel 未来 Roadmap

Apache SeaTunnel 的目标是更快、更好用,作为一个数据集成平台,SeaTunnel 将不断专注于解决数据集成领域的需求和问题。持续从数据源的数量、数据同步的性能和易用性上满足用户的需求,总的方向是聚焦大模型支持,易用性和可监测性的加强。

Apache SeaTunnel未来一段时间的发展规划包括:

  • 连接器的丰富:支持更多向量数据库
  • 支持更多用户需求较大的连接器种类
  • 支持多表 Source + Sink
  • SeaTunnel Web 的开发
  • CDC 支持 DDL 变更、流速控制
  • K8S+Yarn 支持等。

file

需要特别指出的是,Apache SeaTunnel 对向量和大模型的支持力度未来将越来越大。目前,SeaTunnel Transform 中已经支持了 Embedding 和 LLM,并已经在 Zilliz 数据库中得到应用,可以通过 Embedding 的方式把数据 Sink 到目标端数据库。

file

基于 Apache SeaTunnel 的商业版:WhaleTunnel

WhaleTunnel 是基于 Apache SeaTunnel 的商业版,它简单易用,开箱即用,不依赖 HDFS、Flink、Spark 集群。WhaleTunnel 提供全可视化操作,支持可视化运维与监控配置,支持信创,目前支持 198 种数据源。它还支持整库同步、表结构自动变更,并与 WhaleScheduler 全面集成,用户可以使用完成传参和编排工作。

file

WhaleStudio

WhaleStudio 是由白鲸开源 DolphinScheduler 和 SeaTunnel 核心开发者打造的商业化数据集成调度平台,已经在多个大型企业中得到了应用,例如中信建投等,都在 WhaleStudio 上开发了大量的大数据任务,整合了多个系统和数据库,提高了数据研发效率。

结语

Apache SeaTunnel 和 Apache Doris 的结合,为企业提供了一个强大的批流一体数据仓库解决方案。随着技术的不断进步,Apache SeaTunnel 的未来发展规划将使其更加强大和易用。感谢您的关注,欢迎扫码加入 Apache SeaTunnel 社群,了解更多信息。