官网 http://flume.apache.org/
下载地址 http://flume.apache.org/download.html
https://mirror.bit.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz
https://mirrors.bfsu.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz
https://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz
Flume 1.8用户手册中文版
https://flume.liyifeng.org/
百度百科
https://baike.baidu.com/item/flume/6250098?fr=aladdin
1、特点
(1):Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
(2):Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中
(3):一般的采集需求,通过对flume的简单配置即可实现
(4):Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景
(5):Flume 在0.9.x and 1.x之间有较大的架构调整,1.x版本之后的改称Flume NG,0.9.x的称为Flume OG。
(6):Flume目前只有Linux系统的启动脚本,没有Windows环境的启动脚本。
2、原理特性
flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区,它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。
(1)flume的可靠性
当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。),Store on failure(这也是scribe采用的策略,当数据接收方crash时,将数据写到本地,待恢复后,继续发送),Besteffort(数据发送到接收方后,不会进行确认)。
(2)flume的可恢复性
还是靠Channel。推荐使用FileChannel,事件持久化在本地文件系统里(性能较差)。
3、核心概念
Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具,含有三个核心组件,分别是 source、 channel、 sink。通过这些组件, Event 可以从一个地方流向另一个地方,如下图所示。
Client:Client生产数据,运行在一个独立的线程。
Event: 一个数据单元,消息头和消息体组成。(Events可以是日志记录、 avro 对象等。)
Flow: Event从源点到达目的点的迁移的抽象。
Agent: 一个独立的Flume进程,包含组件Source、 Channel、 Sink。(Agent使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。)
Source: 数据收集组件,是数据的收集端,负责将数据捕获后进行特殊的格式化,将数据封装到事件(event) 里,然后将事件推入Channel中。
Flume提供了各种source的实现,包括Avro Source、Exce Source、Spooling Directory Source、NetCat Source、Syslog Source、Syslog TCP Source、Syslog UDP Source、HTTP Source、HDFS Source,etc。如果内置的Source无法满足需要, Flume还支持自定义Source。
Channel: 是连接Source和Sink的组件,中转Event的一个临时存储,保存由Source组件传递过来的Event。(Channel连接 sources 和 sinks ,这个有点像一个队列。)Flume对于Channel,则提供了Memory Channel、JDBC Chanel、File Channel,etc。
Sink: 从Channel中读取并移除Event, 将Event传递到FlowPipeline中的下一个Agent(如果有的话)(Sink从Channel收集数据,运行在一个独立线程。)Flume Sink取出Channel中的数据,进行相应的存储文件系统,数据库,或者提交到远程服务器。Flume也提供了各种sink的实现,包括HDFS sink、Logger sink、Avro sink、File Roll sink、Null sink、HBase sink,etc。Flume Sink在设置存储数据时,可以向文件系统中,数据库中,hadoop中储数据,在日志数据较少时,可以将数据存储在文件系中,并且设定一定的时间间隔保存数据。在日志数据较多时,可以将相应的日志数据存储到Hadoop中,便于日后进行相应的数据分析。
MemoryChannel:可以实现高速的吞吐,但是无法保证数据的完整性。
MemoryRecoverChannel:在官方文档的建议上已经建义使用FileChannel来替换。
FileChannel:保证数据的完整性与一致性。在具体配置不现的FileChannel时,建议FileChannel设置的目录和程序日志文件保存的目录设成不同的磁盘,以便提高效率。
三、安装、部署、操作实例1、采集目录到HDFS案例:
(1)采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去
(2)根据需求,首先定义以下3大要素
a):采集源,即source——监控文件目录 : spooldir
b):下沉目标,即sink——HDFS文件系统 : hdfs sink
c):source和sink之间的传递通道——channel,可用file channel 也可以用内存channel
(3):Channel参数解释:
capacity:默认该通道中最大的可以存储的event数量;
trasactionCapacity:每次最大可以从source中拿到或者送到sink中的event数量;
keep-alive:event添加到通道中或者移出的允许时间;
2、Centos7.x 安装OpenJDK1.8 并查看安装位置
javascript:void(0)
3、Hadoop 3.x HDFS基础环境(非高可用集群)
javascript:void(0)
4、下载
[root@master ~]# wget -P /usr/bigdata/ https://mirror.bit.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz
5、查看目录
[root@master ~]# ll /usr/bigdata/
-rw-r--r-- 1 root root 67938106 7月 6 23:17 apache-flume-1.9.0-bin.tar.gz
6、进入目录
[root@master ~]# cd /usr/bigdata/
7、解压文件
[root@master bigdata]# tar zxf apache-flume-1.9.0-bin.tar.gz
8、进入 Flume 的配置文件目录
[root@master ~]# cd /usr/bigdata/apache-flume-1.9.0-bin/conf
9、复制配置文件 flume-conf.properties
[root@master conf]# cp flume-conf.properties.template flume-conf.properties
[root@master conf]# cp flume-env.sh.template flume-env.sh
10、编辑配置文件 flume-env.sh
[root@master conf]# vim flume-env.sh
11、编辑内容
export JAVA_HOME=/usr/lib/jvm/java-1.8.0
12、创建目录,为下文配置 文件监听路径
[root@master ~]# mkdir -p /opt/test/flumeTest
13、在 HDFS 中创建目录,用来存放 Flume 上传的文件
[root@master ~]# hdfs dfs -mkdir -p /user/flume/data
14、编辑配置文件(可参考官方文档)
[root@master conf]# vim flume-conf.properties
# 定义三大组件的名称
master.sources = source1
master.channels = channel1
master.sinks = sink1
# 配置 source 组件参数
master.sources.source1.bind = 0.0.0.0
master.sources.source1.port = 44444
master.sources.source1.type = spooldir
master.sources.source1.spoolDir = /opt/test/flumeTest
# 文件前缀
master.sinks.sink1.hdfs.filePrefix = %y-%m-%d-%H-%M-%S
master.sources.source1.fileHeader = false
# 配置 channel1 的参数
master.channels.channel1.type = memory
master.channels.channel1.keep-alive = 120
master.channels.channel1.capacity = 500000
master.channels.channel1.transactionCapacity = 600
# 配置sink组件
master.sinks.sink1.type = hdfs
master.sinks.sink1.hdfs.path =hdfs://master:9820/user/flume/data
master.sinks.sink1.hdfs.fileType = DataStream
# 时间类型
master.sinks.sink1.hdfs.useLocalTimeStamp = true
master.sinks.sink1.hdfs.writeFormat =Text
# 每60秒滚动生成一个文件
master.sinks.sink1.hdfs.rollInterval = 60
# HDFS 块副本数
master.sinks.sink1.hdfs.minBlockReplicas = 1
# 不根据文件大小滚动文件
master.sinks.sink1.hdfs.rollSize = 0
# 不根据消息条数滚动文件
master.sinks.sink1.hdfs.rollCount = 0
# 不根据多长时间未收到消息滚动文件
master.sinks.sink1.hdfs.idleTimeout = 0
# 将配置好的 source 和 sink 绑定到 channel
master.sources.source1.channels = channel1
master.sinks.sink1.channel = channel1
15、进入 Flume 的 bin 目录
[root@master ~]# cd /usr/bigdata/apache-flume-1.9.0-bin/bin
16、根据指定的配置文件,启动 flume-ng
(1)控制台直接启动
[root@master bin]# ./flume-ng agent --conf conf --conf-file /usr/bigdata/apache-flume-1.9.0-bin/conf/flume-conf.properties --name master -Dflume.root.logger=INFO,console
(2)配置环境变量后启动
配置环境变量
[root@master ~]# vim /etc/profile
需要编辑的内容:
export FLUME_HOME="/usr/bigdata/apache-flume-1.9.0-bin"
export PATH=$PATH:$FLUME_HOME/bin
export CLASSPATH=.:$FLUME_HOME/lib
如下图:(根据自己集群情况,没有的组件,可以不配置相应的环境变量)
使配置的环境变量生效
[root@master ~]# source /etc/profile
启动命令
#控制台启动
[root@master ~]# flume-ng agent --conf conf -f /usr/bigdata/apache-flume-1.9.0-bin/conf/flume-conf.properties -n master -Dflume.root.logger=INFO,console
#后台守护启动
[root@master ~]# nohup flume-ng agent --conf conf -f /usr/bigdata/apache-flume-1.9.0-bin/conf/flume-conf.properties -n master -Dflume.root.logger=INFO,console &
启动效果如下:
启动命令参数解释说明:
1 ) 启动命令:
2 ) #告诉flum启动一个agent。
3 )#–conf conf指定配置参数,。
4 )#conf/netcat-logger.conf指定采集方案的那个文件(自命名)。
5 )#–name a1:agent的名字,即agent的名字为a1。
6) #-Dflume.root.logger=INFO,console给log4j传递的参数。
17、进入上文创建的系统中的监听路径
[root@master ~]# cd /opt/test/flumeTest/
18、创建一个测试文件 test.log
[root@master ~]# touch /tmp/test.log
19、向测试文件中写入内容
[root@master ~~]# echo '这是一个 Flume 的测试文件!' >> /tmp/test.log
20、查看测试文件
[root@master ~]# cat /tmp/test.log
这是一个 Flume 的测试文件!
21、执行命令,把测试文件复制或者移动到监听目录中
[root@master ~]# cp /tmp/test.log /opt/test/flumeTest/
或
[root@master ~]# mv /tmp/test.log /opt/test/flumeTest/
22、查看 Flume 日志
23、查看 HDFS 中 Flume 存储目录中的文件列表
[root@master ~]# hdfs dfs -ls /user/flume/data
文件列表
Found 1 items
-rw-r--r-- 1 root supergroup 38 2021-01-04 01:38 /user/flume/data/21-01-04-01-37-54.1609695474546
24、查看 HDFS 中 Flume 存储目录中指定文件
[root@master ~]# hdfs dfs -cat /user/flume/data/21-01-04-01-37-54.1609695474546
这是一个 Flume 的测试文件!
四、浏览器查看文件、下载文件查看
1、打开浏览器,录入 HDFS 的 web 地址
查看 HDFS 中 Flume 目录下的文件:
2、点击查看具体内容:
3、可以把 HDFS 中的文件下载到本地,打开 TXT 中可以看到:
4、以下是我操作的第二个文件,过程:略。
HDFS 文件查看如下:
5、查看当下 HDFS 中的文件列表
[root@master ~]# hdfs dfs -ls /user/flume/data
[root@master ~]# hdfs dfs -cat /user/flume/data/21-01-04-01-53-21.1609696401820
查看效果如下:
1、Hadoop、Hbase集群中Flume 启动报错 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty
javascript:void(0)
2、Flume v1.9.0启动报错ERROR - org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)
javascript:void(0)
3、如果在 Windows 系统中,浏览器查看时,根据主机域名无妨访问 HDFS 的情况,请在 Windows 系统中配置相应的主机名与 IP 的映射关系
配置文件:
C:\Windows\System32\drivers\etc\hosts
配置信息(以您虚拟机或服务器为准)
至此,Centos7.x Hadoop3.x 集群安装部署 Flume v1.9.0操作完毕,希望能够对您有所帮助!