本手册将分为三部分发布,以帮助读者逐步深入理解数据仓库的设计与实践。 第一部分介绍数据仓库的整体架构概述; 第二部分深入讨论ETL在数仓中的应用理论,ODS层的具体实现与应用; 第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开; 通过这样的结构,您可以系统地学习每一层次的内容和设计原则。 前情提要: 《新兴数据仓库设计与实践手册:从分层架构到实际应用(一)》https://mp.
本手册将分为三部分发布,以帮助读者逐步深入理解数据仓库的设计与实践。 第一部分介绍数据仓库的整体架构概述; 第二部分深入讨论ETL在数仓中的应用理论,ODS层的具体实现与应用; 第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开; 通过这样的结构,您可以系统地学习每一层次的内容和设计原则。 前情提要: 《新兴数据仓库设计与实践手册:从分层架构到实际应用(一)》://mp.
Apache DolphinScheduler的JavaTask可以通过在任务执行日志中输出特定格式的参数来支持OUT参数的下游传输,通过捕捉日志并将其作为参数传递给下游任务。这种机制允许任务间的数据流动和通信,增强了工作流的灵活性和动态性。 那具体要怎么做呢?本文将进行详细的讲解。 0 修改一行源码 org.apache.dolphinscheduler.plugin.task.java.Jav
当 Apache DolphinScheduler 运行几个月后,大部分朋友会发现 Logs 下的运行日志越来越多,这时可以考虑清理下 Logs/ 目录下的日志文件,比如设置只保留最近 3 天的日志,怎么操作呢? 可以通过执行以下三个命令来实现: find ./logs -type f -mtime +3 -name "dolphinscheduler-worker.*.log&quo
作者 | 白鲸开源 姜维 在数据集成和调度的领域,Informatica曾经是公认的权威工具。其强大的ETL功能、多年积累的市场经验,使其成为众多企业数据处理的核心工具。 然而,随着新一代大数据平台的迅速崛起,以及信创化改造的要求愈发严格,Informatica在现今复杂多变的生产环境中逐渐显现出不足之处。 相比之下,白鲸开源的WhaleStudio凭借其灵活、开源的架构设计、云数据源和信创数据
近日,由中央网信办信息化发展局指导,互联网发展基金会、网络空间研究院和互联网投资基金联合主办的“2024互联网发展创新与投资大赛(开源)”总结发布活动在北京圆满落下帷幕。本届大赛以“开源创新,共建生态”为主题,旨在推动开源生态的高质量发展,选拔优秀开源项目,促进技术创新与人才培养。 大赛亮点 大赛聚焦在开源人才培养和开源生态建设方面的重大战略需求,围绕“卡脖子”相关技术领域以及
Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 主要特性 易于部署,提供四种部署方式,包括Standalone、Cluster、Docker和Kubernetes 易于使用,可以通过四种方式创建和管理工作流,包括Web UI、Python SDK和Open
本手册将分为三部分发布,以帮助读者逐步深入理解数据仓库的设计与实践。 第一部分介绍数据仓库的整体架构概述; 第二部分深入讨论ETL在数仓中的应用理论,ODS层的具体实现与应用; 第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开; 通过这样的结构,您可以系统地学习每一层次的内容和设计原则。 前情提要:《新兴数据仓库设计与实践手册:从分层架构到实际应用(一)》://mp
导读 在 LLM 蓬勃发展的今天,数据工程已成为支持大规模 AI 模型训练的基石。DataOps 作为数据工程的重要方法论,通过优化数据集成、转换和化运维,加速数据到模型的闭环流程。本文聚焦新一代数据 & AI 集成工具- Apache SeaTunnel 在 DataOps 中的核心作用,并介绍其如何满足 AI 对向量数据及实时处理的需求。文章还分享了白鲸开源在信创环境中的创新实践,
Apache DolphinScheduler 是一个分布式、易扩展的可视化数据工作流任务调度系统,广泛应用于数据调度和处理领域。 在大规模数据工程项目中,数据质量的管理至关重要,而 DolphinScheduler 也提供了数据质量检查的计算能力。本文将对 Apache DolphinScheduler 的数据质量模块进行源码分析,帮助开发者深入理解其背后的实现原理与设计理念。 数据质量规则 A
MapReduce是一种编程模型,用于处理和生成大数据集,主要用于大规模数据集(TB级数据规模)的并行运算。本文详细介绍了Dolphinscheduler在MapReduce任务中的应用,包括GenericOptionsParser与args的区别、hadoop jar命令参数的完整解释、MapReduce实例代码,以及如何在Dolphinscheduler中配置和运行MapReduce任务。 G
Quartz是一个开源的Java作业调度框架,它提供了强大的定时任务调度功能。在DolphinScheduler中,Quartz用于实现定时任务的调度和管理。DolphinScheduler通过QuartzExecutorImpl类与Quartz集成,将工作流及其定时管理操作与Quartz调度框架相结合,实现任务的调度执行。 本文将详细剖析Quartz的原理机制,以及在Dolphinschedul
在当前这个数字化快速发展的时代,数据已经变成了企业竞争中的核心力量。亚马逊云科技数据合作伙伴荟萃周如期举行,集结了数据行业的创新技术和先进解决方案,将深入探讨大数据平台面临的挑战和未来的发展趋势。 11月19日,白鲸开源为亚马逊云科技数据合作伙伴受邀参与,带来《WhaleStudio:基于DolphinScheduler/SeaTunnel的数据调度与开发工具》分享,聚焦下一代云原生DataOps
各位热爱 Apache DolphinScheduler 的小伙伴们,社区10月份月报更新啦!这里将记录 DolphinScheduler 社区每月的重要更新,欢迎关注! 月度Merge之星 感谢以下小伙伴10月份为 Apache DolphinScheduler 所做的精彩贡献(排名不分先后): @shouwangyw,@liunaijie,@binitshrest,@wangxj3,@Sbl
本手册将分为三部分发布,以帮助读者逐步深入理解数据仓库的设计与实践。 第一部分介绍数据仓库的整体架构概述; 第二部分深入讨论ETL在数仓中的应用理论,ODS层的具体实现与应用; -第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开; 通过这样的结构,您可以系统地学习每一层次的内容和设计原则。 在设计数据仓库时,通过构建概念模型、逻辑模型和物理模型,可以使数据的组织方式更好地符合业务
在数字化转型的浪潮下,银行业对数据的依赖日益加深。为提升数据管理和应用水平,西南某城商行于2022年启动了数据中台建设,采用创新技术手段优化其数据服务体系。 本文将深入探讨该行如何借助Whalestudio平台构建数据中台,以及在实际应用中取得的显著成效。 从需求到选择:数据中台系统的选型过程 该银行在数据中台建设过程中,调度和数据抽取平台的选型至关重要。 经过多轮评估和比对,西南某城商行最终选
在大数据和现代 IT 环境中,任务调度与工作负载化(WLA)工具是优化资源利用、提升生产效率的核心驱动力。随着企业对数据分析、实时处理和多地域任务调度需求的增加,这些工具成为关键技术。 本文将介绍当前技术发展背景下的Top 10开源任务调度工具,并探讨它们在大数据和工作负载管理中的实际应用。 任务调度技术发展背景 在现代企业中,任务调度工具不仅仅用于定时任务的执行,更广泛用于: 大数据分析
在当今快速发展的技术领域,DevOps、DataOps和MLOps成为了推动企业数字化转型的三大核心实践。它们各自关注不同的领域,但又相互关联,共同推动着软件和数据的高效开发与运营。 DevOps:软件开发的加速器 DevOps是一种将开发(Development)和运营(Operations)结合的文化、实践和工具,旨在通过化流程和持续集成/持续部署(CI/CD)来加快软件的开发、测试和发
01 背景 公司的数据开发平台需要用到DolphinScheduler做任务调度,其中一个场景是:上游任务执行结束后,需要将任务执行结果传递给下游任务。 DolphinScheduler肯定是能实现任务之间的传参的,具体的可以看:DolphinScheduler | 文档中心 (://dolphinscheduler.apache.org/zh-cn/docs/3.2.2/guide/p
本文整理自白鲸开源联合创始人,Apache DolphinScheduler PMC Chair,Apache Foundation Member 代立冬的演讲。主要介绍了DolphinScheduler及其架构、DolphinScheduler与OceanBase 的联合大数据方案。 DolphinScheduler是什么? Apache DolphinScheduler,作为一款云原生且配备强
本文介绍了在Apache DolphinScheduler中嵌入Arthas的方法,以实现对接口调用的监控。
引言大家好,我叫张琦,来自每日互动,担任大数据平台架构师。今天我将分享我们团队在基于Apache DolphinScheduler实现ClickHouse零压入库过程中的实践经验。这个实践项目涉及到两个关键组件:Apache DolphinScheduler和ClickHouse,主要是我们在实际工作中遇到挑战后的解决方案。通过调研开源组件、验证官方建议和在线方法,我们最终找到了一种较为理想的实现
在之前的文章中,我们已经介绍了Apache DolphinScheduler海豚调度的基本概念和工作流程,以及Shell任务和SQL任务的实践。感兴趣的朋友可以下滑到最下面,点击感兴趣的文章阅读! 今天,让我们来学习Apache DolphinScheduler中的另一个重要功能:钉钉告警。 钉钉群添加机器人 在钉钉群添加机器人,选择自定义机器人 安全设置选择自定义关键词,根据需求输入关键词,我
背景 Dolphinscheduler针对YARN任务,比如说MR、Spark、Flink,甚至是Shell任务,最初都是会判断如果有YARN任务,解析到applicationId。这样就会不单单以判断客户端进程为单一判断依据,还要根据YARN状态进行最终的Dolphinscheduler任务状态判断。后期,社区对此进行了重构(确实是好的向往,现在已经是半成品),但是导致了一些问题,比如说针对Fl
引言 在使用 Apache DolphinScheduler 进行任务调度时,创建租户是管理资源和权限的重要步骤。 但有时候我们可能会遇到无法创建租户的问题,本文将给大家介绍并分析常见的原因,并给出详细的解决方案。 问题描述 当你尝试在 Apache DolphinScheduler 中创建租户时,可能会出现创建失败的情况,具体表现为: 在 DolphinScheduler 的 UI 界面上,
简述 Apache Dolphinscheduler Master和Worker都是支持多节点部署,无中心化的设计。 Master主要负责是流程DAG的切分,最终通过RPC将任务分发到Worker节点上以及Worker上任务状态的处理 Worker主要负责是真正任务的执行,最后将任务状态汇报给Master,Master进行状态处理 那问题来了: Master掉了怎么办?它是负责流程实例的管理
在现代数据处理和工作流管理中,Apache DolphinScheduler 以其强大的调度能力和易用性,成为了许多企业和开发者的首选工具。 本文将深入探讨 DolphinScheduler 的进阶使用技巧,包括参数传递、资源中心管理、告警通知配置,以及如何在真实项目中高效使用 DolphinScheduler。 进阶使用 参数传递 参数传递是 DolphinScheduler 中的一项重要功能
DolphinScheduler 是一款强大的开源分布式任务调度系统,广泛应用于大数据领域,用于管理复杂的工作流。本文将详细介绍如何通过 Docker Compose 安装和配置 DolphinScheduler,以便快速搭建并使用这一系统。 1. 环境准备 首先,确保你的系统已经安装了 Docker 和 Docker Compose。Docker 是一个开源容器化平台,允许开发者将应用程序及其依
近日,“创客北京2024”海淀区复赛名单正式公布,白鲸开源凭借其全球的云原生DataOps平台——WhaleStudio,荣获企业组优秀奖,并成功进入复赛名单。 此次“创客北京2024”海淀区级赛由中关村科学城管理委员会主办,北京中关村科学城科创服务有限公司与北京(海淀)留学人员创业园(海淀创业园)共同承办。自赛事启动项目征集以来,海淀区86个窗口平台和基地共吸引了1005个企业及项目报
Apache DolphinScheduler介绍 Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 Dag背景知识 摘录了一下Dag的offical定义 A graph is formed by vertices and by edges connect
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号