引言在上一篇文章中,我们主要讲解的是:我工作中遇到的一个实际案例,我们要周期性的从上游数据库中抽取数据到本地库,每次抽取的是最近180天的数据。如果上游最近180天的数据量有增加变多了,先把本地表中最近180天的数据删除,然后把上游最近180天的数据抽取到本地库表中。最后把本地库表中所有记录,进行去重复操作。如果上游最近180天的数据量没有化或变少了,本地表不做任何操作。在本篇文章中,介绍的是:依
引言在上一篇文章中,我们主要讲解的是:我工作中遇到的一个实际案例,数据源是一份csv文件,在使用kettle抽取csv到sql server数据库后,发现原始的数据的长度和目标表定义的列长度有问题、还伴随导入了大量的NULL记录行。在本篇文章中,介绍的是:依然我工作中遇到的一个实际案例,我们要周期性的从上游数据库中抽取数据到本地库,每次抽取的是最近180天的数据。如果上游最近180天的数据量有增加
引言在上一篇文章中,我们主要讲解的是:我工作中遇到的一个实际案例,数据源是一份Excel文件,在使用kettle抽取excel到sql server数据库后,发现数据的精度有问题、还伴随导入了大量的NULL记录行。在本篇文章中,介绍的是:依然我工作中遇到的一个实际案例,数据源是一份csv文件,在使用kettle抽取csv到sql server数据库后,发现原始的数据的长度和目标表定义的列长度有问题
引言在上一篇文章中,我们主要讲解的是:kafka的相关的那些事、命令行操作kafka、API操作kafka、kettle中的kafka的相关组件设置及实战演示。在前面我们用了大量的文章,讲解kettle的基础组件,日常的应用也就够了。后续我通过实战案例还会扩展讲一些组件,比如:java组件、javascript组件等等,还有好多组件没有讲解!!!在本篇文章中,介绍的是:我工作中遇到的一个实际案例,
引言上一篇文章中,我们介绍了:HiveServer2服务相关内容、kettle中的DB连接(连接hive、连接impala)。在本篇文章中,我们接着介绍:kettle中的DB连接(连接sqlserver)。别看本篇就1个知识点,兄弟们坑也不少呢,让我们一起来踩坑吧!kettle创建sqlserver类型DB连接kettle连接sqlserver数据库有2种方式:MS SQL SERVER和MS S
引言上一篇文章中,我们介绍了:JDBC相关内容(简介、架构图、代码实战)、kettle中的DB连接(连接mysql)。在本篇文章中,我们接着介绍:HiveServer2服务相关内容、kettle中的DB连接(连接hive、连接impala)。别看本篇就2个知识点,兄弟们坑也不少呢,让我们一起来踩坑吧!Hive端配置要想使用jdbc连接你的Hive,你要连接的主机上必须开启了HiveServer2服
引言上一篇文章中,我们介绍了:文本文件输入各种设置,实战演示了如何操作它。只要兄弟们跟着我的文章操作,兄弟们对文本文件输入这个组件应该可以正常使用了。本篇文章我们就讲一个知识点:DB连接。前面我们说过kettle是使用java语言编写的,kettle对DB的连接,其底层使用的就是JDBC技术实现的。所以,又要给兄弟们扩展的聊一聊JDBC了。JDBC的那些事简介JDBC(Java DataBase
引言上一篇文章中,讲解的是:我工作中遇到的一个实际案例,我们要周期性的从上游mysql数据库中抽取数据到本地hive库中,每次抽取的是最近6个月的数据。hive中的目标表是按月做的分区,把最近6个月的数据分6次循环插入覆盖到对应的分区中。在本篇文章中,我们接着介绍:kettle中的Add XML组件转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种
引言在上一篇文章中,我们主要讲解的是:一个综合小案例(从oracle库中读取数据,然后通过kettle组件,将数据写入到mysql的库表中)。在本篇文章中,我们接着介绍:kettle中的kafka的相关组件。kafka的那些事简介Kafka是由LinkedIn公司推出的一个高吞吐的分布式消息系统,通俗地说就是一个基于发布和订阅的消息队列。设计目标(1)、对TB级以上数据也能保证常数时间的访问性能(
引言在上一篇文章中,我们主要讲解的是:一个综合小案例(从文本文件\excel\csv,这3类文件中读取数据。然后通过表输出组件,把数据最终保存在指定的mysql库表中)。在本篇文章中,我们要用前面讲的是:一个综合小安全(把oracle数据库中的数据,迁移到mysql库中)。这种异库迁移数据的需求,太正常了。本文中我只拿单表的数据来演示,让大家有个感觉。如果在生产中,整体库的迁移的话,你需要考虑的事
引言在上一篇文章中,我们主要讲解的是:删除组件的各种详细设置,最后实战演示了,从excel文件中读取数据,然后通过删除组件,把excel中的数据和mysql库表中的数据通过指定进行关联,能关联上的,就进行删除操作。在本篇文章中,我们要用前面讲的输入\输出组件,汇总的讲一个小案例了。数据的输入端,它是随便变化的(文本、excel、xml、json、表)。数据的输出端,它也是随便变化的(文本、exce
引言在上一篇文章中,我们主要讲解的是:插入更新组件的各种详细设置,最后实战演示了,从excel文件中读取数据,然后通过插入更新组件,对mysql中的库表数据进行了插入更新操作。在本篇文章中,我们接着介绍:kettle中的删除组件。转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以
引言在上一篇文章中,我们主要讲解的是:更新组件的各种详细设置,最后实战演示了,从excel文件中读取数据,然后通过更新组件,对mysql库表中的数据进行更新操作。在本篇文章中,我们接着介绍:kettle中的插入更新组件。转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以我们要先创
引言在上一篇文章中,我们主要讲解的是:表输出组件的各种详细设置,最后实战演示了,从文本文件中读取数据,然后通过表输出组件,把数据最终保存在mysql的库表中。在本篇文章中,我们接着介绍:kettle中的更新组件转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以我们要先创建一个转换
引言在上一篇文章中,我们主要讲解的是:XML输出(XML output)。在本篇文章中,我们主要讲解的是:表输出。转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以我们要先创建一个转换。保存转换给你新建的转换,起个名字,并保存表输出这个组件,能将数据导入指定的数据库表中。a、基本
引言在上一篇文章中,我们主要讲解的是:SQL文件输出组件在本篇文章中,我们主要讲解的是:XML输出(XML output)。要想学明白XML输出组件,我们就要扩展着聊聊XML那些事了。XML那些事a、概述Xml用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。Xml是标准通用标记语言(SGML)的子集,非常适合Web传输。XM
引言在上一篇文章中,我们主要讲解的是:JSON输出组件(JSON output)。在本篇文章中,我们主要讲解的是:SQL文件输出组件其实还有很多种方式,能完成和kettle中SQL文件输出组件一样的功能,我也会扩展的给大家说一说。转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以
引言在上一篇文章中,我们主要讲解的是:kettle中的Microsoft Excel 输出组件。在本篇文章中,我们主要讲解的是:JSON输出组件(JSON output)。要想学明白JSON输出组件,我们就有必要扩展着聊聊,JSON的那些事了。JSON简介JSON的全称是"JavaScript Object Notation",意思是JavaScript对象表示法,它是一种基于文本,独立于语言的轻
引言在上一篇文章中,我们主要讲解的是:kettle中的Excel 输出组件。在本篇文章中,我们主要讲解的是:Microsoft Excel 输出组件。在我使用的kettle 8.3版本中,Excel输出有两个组件对象,分别是:Excel输出和Microsoft Excel 输出。Excel输出是仅支持2003版本的格式(有数量限制,且步骤设置较简单),后面的Microsoft Excel 输出则包
引言在上一篇文章中,我们主要讲解的是:kettle中的文本文件输出。在本篇文章中,我们主要讲解的是:Excel输出。转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以我们要先创建一个转换。保存转换给你新建的转换,起个名字,并保存Excel 输出可通过此组件,将数据流输出到exce
引言在前面16篇文章中,我们详细的介绍了一些常用的输入组件。从本篇文章开始,我们主要讲解的是输出组件。在本篇文章中,我们主要讲解的是:kettle中的文本文件输出。转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以我们要先创建一个转换。保存转换给你新建的转换,起个名字,并保存文本
引言上一篇文章中,我们介绍了:XML input stream (StAX)组件的各种详细设置,最后实战演示了如何操作它来读取磁盘上的xml文件、还有清洗数据的操作。在本篇文章中,我们接着介绍:kettle中的输入组件,前面我们介绍了一些常用的输入组件。本篇文章再扩展的讲解一些不常用的组件,这些组件操作起来非常简单,所以我只演示如何操作,不再像之前那样详细讲解选项了,大家一看就能明白如何使用。转换
引言上一篇文章中,我们介绍了:JSON和JSONPath的那些事,然后又讲解了JSON输入组件的各种详细设置,最后实战演示了如何操作它来读取磁盘上的json文件。在本篇文章中,我们接着介绍:kettle中的XML input stream (StAX)在kettle中Get data from xml组件和 XML Input Stream (StAX)组件都可以读取并解析xml文件。Get da
引言上一篇文章中,我们介绍了:XML和XPath的那些事,然后又讲解了XML文件输入组件的各种详细设置,最后实战演示了如何操作它来读取磁盘上的xml文件。在本篇文章中,我们接着介绍:kettle中的JSON输入组件(JSON inpu)。要想学明白JSON输入组件,我们就要扩展着聊聊JSON和JSONPath那些事了。JSON简介JSON的全称是"JavaScript Object Notatio
引言上一篇文章中,我们介绍了:CSV文件输入组件的各种详细设置,实战演示了如何操作它来读取磁盘上的CSV文件。最后还扩展了,使用文本文件输入组件读取读取磁盘上的CSV文件。在本篇文章中,我们接着介绍:kettle中的XML文件输入组件(Get data from XML)。要想学明白XML文件输入组件,我们就要扩展着聊聊XML和XPath那些事了。XML那些事a、概述Xml用于标记电子文件使其具有
引言上一篇文章中,我们介绍了:Excel输入组件的各种详细设置,实战演示了如何操作它来读取电脑中的一个Excel文件。在本篇文章中,我们接着介绍:kettle中的CSV文件输入组件。转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以我们要先创建一个转换。保存转换给你新建的转换,起
引言上一篇文章中,我们介绍了:表输入组件的各种详细设置,实战演示了如何操作它来读取oracle库中的一张表数据。在本篇文章中,我们接着介绍:kettle中的Excel输入组件。转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以我们要先创建一个转换。保存转换给你新建的转换,起个名字
引言上一篇文章中,我们介绍了:oracle监听器相关内容(简介、请求的类型、连接方式、配置监听、维护命令、查看实例名)、kettle中的DB连接(连接oracle)在本篇文章中,我们接着介绍:kettle中的表输入组件转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以我们要先创建
引言上一篇文章中,我们介绍了:kettle中的DB连接(连接sqlserver)、MS SQL SERVER和MS SQL SERVER(NATIVE)两种类型的区别。在本篇文章中,我们接着介绍:kettle中的DB连接(连接oracle)。别看本篇就1个知识点,关于oracle这个数据库中的王者,我们还是有太多太多要聊的了。为啥我要这么说,因为我从学习oracle到现在,已经近10个年头了,对o
引言上一篇文章中,我们介绍了kettle这款软件的主要界面,让大家对kettle有了一个大体的印象。本篇文章我们来讲解组件:文本文件输入转换转换(transaformation)是ETL解决方案中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。创建转换我们要做的ETL操作,全是在转换中设计的,所以我们要先创建一个转换。保存转换给你新建的转换,起个名字,并保存文本文件输入可通过此组件读取大量
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号