一、各中间件对比


序号

名称

简介

架构

功能

安装环境

优势

劣势

社区活跃程度

1

Scribe

Scribe是facebook开源的日志系统,用于大规模日志分析处理,通常与Hadoop结合,使用scribe向HDFS中push日志



scribe从各种数据源上收集数据,放到一个共享队列上,然后push到后端的中央存储系统上

开发语言 C

a.安装thrift依赖软件

g++,boost, autoconf, libevent,

Apache ant, JDK

b.安装thrift

c.安装Hadoop

d.安装scribe


1.由于采用了thrift,客户端可以采用各种语言编写

2.scribe为日志收集提供了一种容错且可扩展的方案

3.代码量少

1.维护成本较高

a安装复杂,依赖的包

需要设置的环境变量非常多

b.版本差异较大,各个版

本存在兼容问题

1.代码停止维护

2.社区活跃度低,相关资料较少

2

Flume

Flume(NG)是Cloudera开源的一个分布式、可靠的系统,能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中



重构后的NG版本,它具有基于流式数据流的简单而灵活的架构,服务可靠性机制和故障转移、恢复机制,容错能力

开发语言 Java

jdk

1.支持集成各种主流系统和框架:Hadoop、HBase、Hive、Kafka、es、Thrift、Avro等

2.代码模块清晰

1.sink在向后端存储输出时,如果后端性能跟不上,agent会有oom的问题

内存资源

1.apache 顶级开源项目,文档及社区活跃度还可以。2017年10月4日发布1.8.0release版

2.美团点评等再用

3

Logstash

Logstash是一个开源的服务端数据处理管道,可以同时从多个源中获取数据,进行转换,然后将其发送到指定位置



logstash的input组件可以收集业务日志,安全日志,访问日志等,通过filters组件解析过滤后,由ouput组件存储到指定位置,

开发语言 Jruby

jdk

1.几乎可以访问任何数据,输出源可以和多种外部应用结合file,redis,kafka,mq

2.支持各种自定义插件

3.通常和es、Kibana结合使用,整合较好,ELK的方案比较成熟

4.代码是ruby+java写的

1.运行在Jvm之上

2.消耗CPU和内存资源

3.ruby写的,一些疑难问题需要结合源码排查的需要一些时间

1.社区活跃

2.业内用的比较多,linkedin、斗鱼、挖财等


4

Beats

Filebeat

Filebeat是Elastic Stack的一部分,提供轻量型方法,用于转发日志文件



定制采集日志文件,主要解决Logstash耗费资源的问题,一般Filebeat进行采集,LogStash去抽取过滤存储到es

开发语言 Golang

 

1.轻量

2.对服务器资源占用低



1.功能单一

2.输入源不同,需要不同的beat去获取数据

1.社区活跃度一般

2.比较新,观望中

5

Chukwa

Chukwa是一个用于监视大型分布式系统的开源数据收集系统。其建立在Hadoop分布式文件系统(HDFS)和Map/Reduce之上,并继承了Hadoop的可扩展性和健壮性



通过agent采集数据存储到hdfs,经mapreduce计算后分析数据

开发语言 Java

a.hadoop

b.maven

1.大规模日志采集

2.代码量多

1.和其它组件集成不好

2.实时性差

1.apache 顶级开源项目

2.社区活跃度低