kettle架构及原理_51CTO博客
1. PDI结构简介 图 1‑1 PDI核心组件  Spoon是构建ETL Jobs和Transformations的工具。Spoon可以以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。Data Integration Server是一个专用的ETL Server,它的主要功能有:功能描述执行通过Pentaho Data Integration引擎执行ETL的作
有关kettle的学习,这里就先不细述kettle中的各种控件的作用了,后续再根据时间补上吧。1、kettle界面打开kettle,主界面有两块内容,分别是转换、作业,在其上右键可新建文件。转换:数据ETL。作业:定时任务。 2、创建数据库连接新建一个转换后,在主对象树栏选择“DB连接”,右键新建。点击“测试”,可以查看是否连接成功。 2.1 同一数据库内的两表同步更新&nbs
核心组成勺子(Spoon.bat/spoon.sh):是一个图形化的界面,允许用图形化的方式开发转换和作业煎锅(Pan.bat/pan.sh):利用Pan可以命令行调用Spoon编辑好的Job 厨房(Kitchen.bat/kitchen.sh):利用Kitchen可以使用命令行调用由Spoon编辑好的Job 菜单(Carte.bat/Carte.sh):Carte是一个轻量级的Web容器,用于建
Pentaho Data Integration(PDI)简介1. PDI结构简介 图 1‑1 PDI核心组件  Spoon是构建ETL Jobs和Transformations的工具。Spoon可以以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。Data Integration Server是一个专用的ETL Server,它的主要功能有:功能描述执行通过Pe
转载 2023-10-29 08:00:48
112阅读
 基本概念: 一、 BI:商业智能系统,也称DSS(决策支持系统)。 二、 OLTP:独立事务系统,也称在线事务处理系统。 对比:              指标       
转载 2023-12-19 20:26:10
47阅读
本文主要介绍我了解的kettle源码结构,当使用时遇到bug能快速定位到具体代码,有常规修改思路。       kettle是一个开源产品,产品本身设计是很优秀的,代码应该是很多开源爱好者用业余时间贡献的,代码整体结构还是比较容易理解的,但具体到每一个控件内部就因人而异了,感觉还是挺复杂的,肯定别人考虑得比较全面。但因为是开
转载 2023-08-29 19:04:04
81阅读
kettle核心概念可视化编程kettle可以被归类为可视化编程语言,因为kettle可以使用图形化的方式定义复杂的ETL程序和工作流。kettle里的图就是转换和作业两部分可视化编程一直是kettle里的核心概念,他可以快速构建复杂的ETL作业和减低维护工作量。同时他隐藏了很多细节,业务人员也可以使用。转换转换(transformation)是ETL解决方案中最重要的部分,他处理抽取、转换、加载
1、转换 转换是ETL解决方案中重要的组成部分之一,它主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。实例:步骤是转换里的基本组成部分,也可被称为控件。例如上图的表输入和文本文件输出。 跳是步骤之间带箭头的连接线,即数据的通道,用于连接两个步骤,实现将元数据从一个步骤传递到另一个步骤。在kettle中所有步骤都是以并发方式执行的。下面是创建一
转载 2023-12-26 11:46:24
69阅读
HDFS架构HDFS是一个master/slave结构的服务,其中NameNode是master,一般只在一台节点上启动;DataNode是slave,一般每台节点都会启动一个;DataNode不断地主动向NameNode发送心跳、汇报block信息等;为了对NameNode进行备份,还会有一个SecondaryNameNodeHDFS各类操作创建目录client与namenode直接交互,在IN
原创 2019-04-16 20:15:43
961阅读
Prometheus架构各组件作用。
原创 精选 2023-03-19 15:29:53
989阅读
2评论
Ceph架构原理 Ceph是一种开源的分布式存储系统,具有高可靠性、可扩展性和高性能等特点。它采用了分布式架构,将数据分布在多个节点上,提供了高效的数据访问和存储管理机制。本文将介绍Ceph的架构及其原理,并探讨其在分布式存储领域中的应用。 Ceph的核心组件由三个部分组成:RADOS(Reliable Autonomic Distributed Object Store),RBD(RADO
原创 11月前
30阅读
说明底层命令和高层命令.git目录结构Git对象使用底层命令来进行git add和commit操作新建一个fileA.txt文件,写入一些内容提交到仓库新建fileB文件,修改fileA文件提交到仓库将包含fileA文件的bak目录提交仓库给commit提交打标签Git引用tags引用heads引用HEAD引用remotes引用 说明这篇文章是对 Pro Git一书Git 内部原理章节的总结。理
# ADB架构原理 ## 1. 流程概述 ADB(Android Debug Bridge)是一种用于在Android设备和计算机之间进行通信的命令行工具。它可以提供设备管理、应用程序安装和调试等功能。 下面是ADB架构的实现步骤概述: | 步骤 | 描述 | | --- | --- | | 1 | 连接设备或模拟器 | | 2 | 启动ADB守护进程 | | 3 | 发送ADB命令 |
原创 2023-07-23 07:13:57
205阅读
# openstack架构原理 ## 1. 简介 OpenStack 是一个用于构建和管理公有云与私有云的开源软件平台。它通过将底层计算资源(虚拟化、存储、网络等)抽象为服务,提供给用户方便灵活的云计算环境。本文将指导你了解 openstack 架构及其实现原理,并提供相应的代码示例。 ## 2. 架构流程 下面是 openstack 架构实现的整体流程: | 步骤 | 描述 | |
原创 2023-10-24 19:29:00
132阅读
# MongoDB 架构原理 MongoDB 是一个基于文档的 NoSQL 数据库,擅长处理大量数据并且具有高度的可扩展性。要理解 MongoDB 的架构及其原理,需掌握以下基本概念和步骤。本文将通过流程图和关系图帮助你理解整个过程。 ## 1. MongoDB 架构概述 MongoDB 的基本架构可以通过以下几个主要组件来理解: - **数据库(Database)**:MongoDB
本文转载自https://www.cnblogs.com/tgzhu/p/6098339.htmlElasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统,基于Java/Lucene构建,可以用于全文搜索,结构化搜索以及近实时分析。可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。说明:Lucene:只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中
转载 2019-03-28 15:45:18
2317阅读
转换机制  每个转换步骤都是ETL数据流里面的一个任务。转换步骤包括输入、处理和输出。输入步骤从外部数据源获取数据,例如文件或者数据库;处理步骤处理数据流,字段计算,流处理等,例如整合或者过滤。输出步骤将数据写会到存储系统里面,例如文件或者数据库。  图 1 转换步骤示例1. Step类图简介  Kettle为扩展插件提供了4个扩展点,这4个扩展点也是每个步骤的组成。每个类都有其特定的目
Kettle是一款国外开源的ETL(Extract-Transform-Load,数据抽取、转换、装载的过程)工具。Kettle现已更名为PDI(Pentaho-Data-Integration)Pentaho数据集成。kettle中文网 Kettle核心组件:Spoon、Pan、CHEF、Kitchen。 SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。 PA
转载 2023-08-10 16:31:32
511阅读
大数据技术框架1. 简介  大数据技术体系主要涉及方面:数据采集,数据处理,数据存储以及分布式协调服务; 数据采集:etl,kettle,flume 数据处理:离线处理hadoop,实时处理spark、storm、flink 数据存储:HBASE、hdfs。 数据仓库;hive 分布式协调服务:zookeeper2.概述ETL: ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓
转载 2023-09-05 18:49:58
171阅读
 接着上一节,连接服务端后,开始通过设计器创建第一个作业(很简单仅用于说明)一、概念解释转换:kettle中转换是一个完整的数据处理过程,里面仅能处理单个处理任务,无法使用条件判断等节点,通常会把不同数据库之间一个表的数据迁移作为一个转换任务。作业:kettle中作业是个可调度的任务,他可以包含多个转换,并且可以设置条件分值,总之最后一个作业再能配置到服务端执行。二、操作过程1、菜单上点
  • 1
  • 2
  • 3
  • 4
  • 5