本文作者来自于a16z负责人Matt Bornstein,合伙人Jennifer Li、Martin Casado。a16z,曾投资过包括Facebook、Instagram、Skype和Twitter等国际企业。在本篇文章中,我们可以前瞻性且详细地看到现代数据基础设施的新兴架构及工具的介绍。
在过去一年中,几乎所有关键行业指标都创下了历史新高,新产品类别的出现速度超过了大多数数据团队跟踪的速度。
为了帮助数据团队掌握行业中发生的变化,a16z (投资公司,曾投资过包括Facebook、Instagram、Skype和Twitter等国际企业)最近发布了一组更新的数据基础架构架构。它们展示了分析和运营系统中当前最好的部分,这些内容来自去年与之交谈的众多运营商。每个架构蓝图都包含自上一版本以来发生变化的摘要。
a16z相关负责人认为,核心数据处理系统在过去一年中保持了相对稳定,而支持工具和应用程序迅速激增。除此之外还探讨了平台开始出现在数据生态系统中的假设,这有助于解释在数据演变中看到的特定模式。
01 数据基础架构的更新
最新的架构图是在领先的数据从业者的帮助下根据其内部运行的内容以及对新部署的建议进行编译的。第一张图显示了所有数据基础设施用例的统一概况:
注意:不包括 OLTP、日志分析和 SaaS 分析应用程序。
第二张图放大了机器学习,这是一个复杂且日益独立的工具链:
在此之前区分了支持数据驱动决策的分析系统和支持数据驱动产品的运营系统。并将这些类别映射到三个模式或蓝图,通常由领先的数据团队来实施。
大家曾经关心这些架构模式是否会融合。一年后,这似乎并没有发生。特别是,分析和运营生态系统都持续蓬勃发展。像 Snowflake 这样的云数据仓库发展迅速,主要集中在 SQL的用户和商业智能用例。但其他的技术也在加速 — 例如,像 Databricks 这样的数据仓库正在以前所未有的速度增长客户。通过采访众多数据团队都得到证实,异构性很可能会留在数据栈中。
其他核心数据系统—即输入和转换—已被证明同样稳定。这在现代商业智能模式中尤为明显,Fivetran 和 dbt(或类似技术)的组合几乎无处不在。但在一定程度上也适用于运营系统,其中已经出现了Databricks/Spark、Confluent/Kafka 和 Astronomer/Airflow 等事实上的标准。
02 新事物:寒武纪大爆发
围绕稳定的核心,数据栈在过去一年中发展迅速。从广义上讲,在两个领域看到了最多的变化:
- 旨在支持关键数据流程和工作流的新工具,例如数据发现、可观察性或 ML 模型审计
- 允许数据团队和业务用户以新的、更强大的方式从数据中产生价值的新应用程序,例如数据工作区、反向 ETL 和 ML 应用程序框架
还看到一些旨在增强核心数据处理系统的新技术的引入。值得注意的是,围绕分析生态系统中的指标层和运营系统的仓库模式一直存在积极的争论——这两者都在朝着有用的定义和架构方向发展。
在此背景下,将详细介绍每个主要的数据基础架构蓝图。下面的每个部分都显示了一个更新的图表和对关键更改的分析。
蓝图 1:现代商业智能
适用于各种规模公司的云原生商业智能
自 2020 年架构 v1 以来,较暗的框是新的或有意义的更改;浅色盒子基本保持不变。灰色框被认为与此蓝图的相关性较低。
新的或有意义的更改:
- 人们对指标层的兴趣激增,这是一个在数据仓库之上提供一组标准定义的系统。这引起了激烈的争论,包括它应该具备哪些能力、哪些供应商应该拥有它以及它应该遵循什么规范。到目前为止,已经看到了几个可靠的纯游戏产品(如 Transform 和 Supergrain),以及 dbt 扩展到这一类别的产品。
- 反向 ETL供应商的增长很显著,尤其是 Hightouch 和 Census。这些产品的目的是使用来自数据仓库的输出和见解来更新运营系统,例如 CRM 或 ERP。
- 数据团队对新应用程序表现出更大的兴趣,来增强他们的标准控制板,尤其是数据工作区(如 Hex)。从广义上讲,新的应用程序可能是云数据仓库日益标准化的结果—一旦数据结构清晰且易于访问,数据团队自然希望用它做更多事情。
- 数据发现和可观察性公司吸引并筹集了大量资金(尤其是 Monte Carlo 和 Bigeye)。虽然这些产品的好处是显而易见的—更可靠的数据管道和更好的协作—但采用仍然相对较早,因为客户发现了相关的例子和预算。(尽管在数据发现方面有几家可信的新供应商——例如 Select Star、Metaphor、Stemma、Secoda、Castor——但我们通常将早期种子阶段的公司排除在图表之外。)
蓝图 2:多模式数据处理
支持分析和运营例子的演进数据库
注意:自 2020 年架构 v1 以来,较暗的框是新的或有意义的更改;浅色盒子基本保持不变。灰色框被认为与此蓝图的相关性较低。
没有改变的地方
- 数据处理(例如 Databricks、Starburst 和 Dremio)、传输(例如 Confluent 和 Airflow)和存储 (AWS) 中的核心系统继续快速增长,并构成了这个蓝图的支柱。
- 多模式数据处理在设计上仍然多样化,允许公司在分析和运营数据应用程序中采用最适合其特定需求的系统。
新的内容
- 湖屋结构的认知度和清晰度越来越高。我们已经看到许多厂商(包括 AWS、Databricks、Google Cloud、Starburst 和 Dremio)和数据仓库先驱都支持这种方法。湖屋的基本价值在于将强大的存储层与一系列强大的数据处理引擎(如 Spark、Presto、Druid/Clickhouse、Python 库等)配对。
- 存储层本身正在升级。虽然 Delta、Iceberg 和 Hudi 等技术并不新鲜,但它们正在加速采用并被构建到商业产品中。其中一些技术(尤其是 Iceberg)还可以与 Snowflake 等云数据仓库互操作。如果异构性继续存在,这很可能成为多模式数据栈的关键部分。
- 流处理(即实时分析数据处理)的采用率可能会上升。虽然像 Flink 这样的第一代技术仍未成为主流,但具有更简单编程模型的新进入者(如 Materialize 和 Upsolver)正在得到采用,而且,有趣的是,现有 Databricks 和 Confluent 的流处理产品的使用也开始加速。
蓝图 3:人工智能和机器学习
用于机器学习模型的稳健开发、测试和操作的部分
注意:自 2020 年架构 v1 以来,较暗的框是新的或有意义的更改;浅色盒子基本保持不变。灰色框被认为与此蓝图的相关性较低。
没有改变的地方
- 与 2020 年相比,今天的模型开发工具基本相似,包括主要的云供应商(例如 Databricks 和 AWS)、ML 框架(例如XGBoost 和 PyTorch)以及实验管理工具(例如 Weights & Biases 和 Comet),实验管理有效地将模型可视化和调整归为独立的类别。
- 构建和操作机器学习栈很复杂,需要专业知识。对许多数据团队来说,人工智能的生产仍然是一个挑战。
新的内容
- ML 行业正在围绕以数据为中心的方法进行整合,强调复杂的数据管理而不是增量建模改进。这有几个含义:
- 数据标签(例如 Scale 和 Labelbox)的快速增长以及对闭环数据引擎的兴趣日益浓厚,主要以特斯拉的 Autopilot 数据管道为蓝本。
- 更多地采用功能存储(例如 Tecton),用于批处理和实时用例,作为以协作方式开发生产级 ML 数据的一种手段。
- 重新燃起了对至少部分自动化 ML 建模过程的低代码 ML解决方案(如 Continual 和 MindsDB)的兴趣。这些较新的解决方案专注于将新用户(即分析师和软件开发人员)带入机器学习市场。
- 使用预训练模型正在成为默认模式,尤其是在 NLP 中,并为 OpenAI 和 Hugging Face 等公司提供了便利。在微调整、成本和扩展方面,仍有许多有意义的问题需要解决。
- ML 运营工具(有时称为 MLops)正变得越来越成熟,围绕ML 监控作为最需要的例子和即时预算而构建。与此同时,大量新的运营工具——尤其是验证和审计——正在出现,最终市场仍有待确定。
- 人们越来越关注开发人员如何将 ML 模型无缝集成到应用程序中,包括通过预构建的 API(例如 OpenAI)、矢量数据库(例如 Pinecone)和更多已有的框架。
03 数据平台假说
在过去的一年中,数据基础设施栈在核心系统中实现了相当大的稳定性,并且支持工具和应用程序在迅速增加。为了帮助解释为什么会发生这种情况,在这里介绍一下数据平台的概念。
什么是平台?
“平台”这个词在数据生态系统中被过度使用,内部团队经常使用它来描述他们的整个技术栈,或者供应商用来销售松散连接的产品套件。
在更广泛的软件中,平台是其他开发人员可以在其上构建的东西。平台本身通常提供有限的价值——例如,大多数用户对访问 Windows 或 iOS 的内容没有兴趣。但它们提供了一系列好处,例如通用编程接口和庞大的已安装软件,允许开发人员构建和分发用户最终关心的应用程序。
从行业的角度来看,平台的定义特征是有影响力的平台提供商和大量第三方开发人员在技术和经济上相互依赖。
什么是数据平台?
从历史上看,数据栈并不明显适合平台的定义。例如,在 ETL、数据仓库和报告供应商之间存在相互依赖关系,但集成模型往往是一对一的,而不是一对多的,并且得到了专业服务的大量补充。
根据采访的一些数据专家的说法,这种情况可能会开始改变。
平台假设认为,数据栈的“后端”——大致定义为数据输入、存储、处理和转换——已经开始围绕相对较小的基于云的供应商进行整合。结果,客户数据被收集在一组标准系统中,供应商正在大力投资以使其他开发人员可以轻松访问这些数据——作为 Databricks 等系统的基本设计原则,并通过 SQL 标准和snowflake这样的系统自定义计算 API。
反过来,“前端”开发人员利用这种单点集成来构建一系列新应用程序。他们依赖于数据仓库/湖库中干净和组合的数据,而不用担心它是如何到达那里的底层细节。单个客户可以在一个核心数据系统之上购买和构建许多应用程序。甚至传统的企业系统,如财务或产品分析,正在使用“仓库原生”架构进行重建。
需要明确的是,这并不意味着 OLTP 数据库或其他重要的后端技术在不久的将来会消失。但是与 OLAP 系统的原生集成可能会成为应用程序开发的关键组成部分。随着时间的推移,越来越多的业务逻辑和应用程序功能可以过渡到这种模型。我们可能会看到建立在这个数据平台上的一整类新产品。
比如,借力于K8s的大数据平台,就是我们现在能够看到的新产品新理念。
目前,国内知名大数据解决方案提供商智领云科技,成功发布第⼀款纯K8s在线⼤数据平台BODS Online,它的出现,意味着“大数据平台的构建难题”“大数据开发低效率”,两大行业性问题找到了行之有效的应对之道。
那么,这类新产品能够解决哪些传统数据平台痛点呢?具体来看以下三点:
首先,纯K8s的数据平台,去除了对Hadoop的依赖,可以直接在K8s运行现有工作负载,统一资源管理,提升资源使用率,便于多租户计费管理,大幅降低运维成本。
第二,类似于K8s对于集群管理的改造,将数据流水线的运行改造成代码式管理,集成开发,一次编写,随处运行。
第三,在云原生架构下提供模块化的数据工程,以产品形式提供面向场景的解决方案,用户可以自助使用、分别购买,按使用量付费。
数据应用程序的出现?
数据平台假设仍有很大的争议。但是,我们看到在数据平台之上实施为水平层的复杂垂直 SaaS 解决方案有所增加。因此虽然很早,但数据栈中发生的变化至少与平台正在占据主导地位的想法是一致的。
有很多原因,例如,像 Snowflake 和 Databricks 这样的公司已经成为数据栈的稳定部分,包括出色的产品、有能力的销售团队和方便的部署模型。但也有一种情况是,平台动态增强了它们的粘性——一旦客户使用其中一个系统构建和/或集成了一系列数据应用程序,过渡通常是没有意义的。
对于近年来新数据基础设施产品的激增,也可以提出类似的论点。这种趋势的解释与大量数据、企业预算增加和风险投资资金过剩有关。但这些事情可以说几十年来都是正确的。现在看到这么多新产品出现的原因可能与平台有关——也就是说,采用新的数据应用程序从未如此简单,正确维护平台从未如此重要。
最后,平台假设在竞争动态方面提供了一些预测能力。在规模上,平台可能非常有价值。今天,核心数据系统供应商可能会积极竞争,不仅是为了当前的预算,而且是为了长期的平台地位。如果您认为数据输入和转换公司是新兴数据平台的核心部分,那么对数据输入和转换公司的惊人估值——或者特别是关于指标层或反向 ETL 等新类别的激烈辩论——也更有意义。
04 展望未来
目前仍处于定义分析和运营数据平台的早期阶段,平台的各个部分都在不断变化。因此,它作为一个类比可能比作为一个严格的定义更有用。但它可能是一个有用的工具,有助于了解市场为何如此变化。数据团队现在拥有比数据库发明以来的任何时候更多的工具、资源和组织能力。
在复杂的数据生态系统中,智领云为该生态系统贡献了新的方法论实践及工具。例如,在随着企业对数据分析和使用的不断增长,数据团队持续优化数据开发流程、应用,所形成的DataOps方法和实践,旨在让数据在企业内快速流动,服务于数据分析甚至业务运营。
当然,DataOps的使用和发展需要有正确的工具和思维加持,借助平台及工具的力量来实现“数据、数据平台、DataOps”的成功。而要构建 DataOps 所需的通用平台,一般需要以下技术:云原生架构,容器,实时和流处理,多分析引擎,集成的应用程序和数据管理,多租户和安全性,DevOps 工具。
此时,智领云自主研发的即开即用,快速搭建数据工程的轻量级云原生大数据开发平台--BDOS Online就派上了用场。
所以,在深度详细地了解现代数据基础设施的新兴架构以外,我们在数据生态系统中提供的工具可以为想要实现数据驱动的企业,提供了强有力的帮助和支持。现在,您就可以扫描下方二维码,全面了解该工具的功能和价值,免费注册BDOS Online,享受28天的免费使用权益。当然,点击页面右上方 立即体验 按钮,在PC端您将会查看更多精彩示例项目!
《Emerging Architectures for Modern Data Infrastructure》
作者:Matt Bornstein,a16z 负责人,曾在 Blumberg Capital、LinkedIn 和 Monitor Group 工作。
Jennifer Li, a16z 合伙人,曾在 AppDynamics 和 Solvvy 担任产品经理。
Martin Casado,a16z 合伙人,曾担任Nicira(被 VMware 收购)的联合创始人兼首席技术官,并且是软件定义网络运动的创始人。