未安装es的可以参考这篇文章elasticsearch安装

logstash介绍

logstash是一个开源的数据收集引擎,具有准实时数据收集能力。
logstash能够将不同的数据规范的输出到你的目标仓储,比如elasticsearch;为下游的数据分析以及可视化提供数据清洗
最初logstash创新了日志收集的方式,后来用例就越来越多。

logstash 提供了海量的扩展插件用户丰富数据收集的方式。

这样一组配置就能实现一个数据收集
1、input 数据来源
2、filter数据做怎么处理
3、数据要输出到哪里去

input{}
filter{}
ouput{}

我们现在要介绍的就是 logstash-input-jdbc插件,用于收集来自mysql的数据。

logstash-input-jdbc

这个插件可以用于任何实现jdbc标准接口的数据库的数据,只需要在配置文件中配置相关的驱动以及指定驱动的类即可。该插件并未携带相关驱动,如果你需要使用需要下载相关驱动插件。可以通过以下两种方式指定,插件默认支持,无需单独下载。

  1. 下载mysql 的jdbc驱动包放到logstash-core/lib/jars目录下,在配置文件指定jdbc_driver_class
input {
  jdbc {
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_connection_string => "jdbc:mysql://localhost:3306/mydb"
    jdbc_user => "mysql"
    jdbc_password => "123456"
    statement => "SELECT * from songs where id>10"
	schedule => "* * * * *"
  }
}
  1. 在配置文件中指定jdbc_driver_library 、jdbc_driver_class
input {
  jdbc {
    jdbc_driver_library => "/path/mysql-connector-java-5.1.36-bin.jar"
    jdbc_connection_string => "jdbc:mysql://localhost:3306/mydb"
    jdbc_user => "mysql"
    jdbc_password => "123456"
    statement => "SELECT * from songs where id>10"
	schedule => "* * * * *"
  }
}

以上配置中的 schedule => “* * * * *” 星号分别代表分、时、天、周、月 定时任务使用的时 rufus-scheduler

* * * * * 每分钟执行一次
星号代表每,每月的每天的每周的每时的每分钟执行一次
* 1 * * *  每天的1点的每分钟执行
1 1 * * * 每天1点1分执行一次
1 1 * * 1-3 1到3月份每周的每天的1点1分执行

对以上定时任务的使用差不多涵盖了大部分用法。

配置项

数据类型

是否必填

默认值

作用

clean_run

boolean

No

false

是否保留之前的运行状态

columns_charset

hash

No

{}

针对某多个列进行编码设置

connection_retry_attempts

number

No

1

连接db重试最大次数

connection_retry_attempts_wait_time

number

No

0.5

两次连接之间等待时长

jdbc_connection_string

string

Yes

no default

jdbc连接串

jdbc_default_timezone

string

No

no default

时区

jdbc_driver_class

string

Yes

no default

驱动类

jdbc_driver_library

string

No

no default

驱动包

jdbc_fetch_size

number

No

no default

JDBC fetch大小设置,如果没设置将获取默认jdbc的设置

jdbc_page_size

number

No

100000

jdbc分页大小

jdbc_paging_enabled

boolean

No

false

是否开启分页

jdbc_password

password

No

no default

密码

jdbc_password_filepath

a valid filesystem path

No

no default

密码文件

jdbc_pool_timeout

number

No

5

在引发PoolTimeoutError之前等待获取连接的秒数

jdbc_user

string

Yes

no default

用户名

jdbc_validate_connection

boolean

No

false

是否验证链接

jdbc_validation_timeout

number

No

3600

验证超时时长

last_run_metadata_path

string

No

“/home/ph/.logstash_jdbc_last_run”

最后一次执行数据记录文件

lowercase_column_names

boolean

No

true

列名小写

parameters

hash

No

{}

sql参数

record_last_run

boolean

No

true

是否记录最后一次执行数据到last_run_metadata_path这个文件

schedule

string

No

no default

定时认去表达式

sequel_opts

hash

No

{}

常规配置

sql_log_level

string, one of [“fatal”, “error”, “warn”, “info”, “debug”]

No

info

sql日志级别

statement

string

No

no default

sql语句

statement_filepath

avalid filesystem path

No

no default

sql文件路径

tracking_column

string

No

no default

追踪某列值(常用于增量更新)

tracking_column_type

string,one of [“numeric”, “timestamp”]

No

“numeric”

追踪值得类型

use_column_value

boolean

No

false

是否开启追踪

根据以上配置我们就可以很容易得配置一个mysql数据采集得配置文件出来如下:

input{
	stdin{
	}
	jdbc{
		jdbc_connection_string => "jdbc:mysql://127.0.0.1/databaseA?characterEncoding=UTF-8&useSSL=false"
		jdbc_user => "root"
		jdbc_password => "123456"
		jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
		statement => "SELECT id,supplier_name AS name,last_modify_time FROM supplier_data WHERE last_modify_time > :sql_last_value"
		codec => plain { charset => "UTF-8"}
		use_column_value => false
		#tracking_column => last_modify_time
		record_last_run => true
		last_run_metadata_path => "/home/middleware/logstash/data/supplier_data/last-value.txt"
        schedule => "* * * * *"
		type => "supplier_data"
        jdbc_default_timezone => "Asia/Shanghai"
	}
	jdbc{
		jdbc_connection_string => "jdbc:mysql://127.0.0.1/databaseB?characterEncoding=UTF-8&useSSL=false"
		jdbc_user => "root"
		jdbc_password => "123456"
		jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
		statement => "SELECT id,customer_name AS name,last_modify_time FROM customer_data WHERE last_modify_time > :sql_last_value"
		codec => plain { charset => "UTF-8"}
		use_column_value => false
		#tracking_column => last_modify_time
		record_last_run => true
		last_run_metadata_path => "/home/middleware/logstash/data/customer_data/last-value.txt"
        schedule => "* * * * *"
		type => "customer_data"
        jdbc_default_timezone => "Asia/Shanghai"
	}
	jdbc{
		jdbc_connection_string => "jdbc:mysql://127.0.0.1/databaseC?characterEncoding=UTF-8&useSSL=false"
		jdbc_user => "root"
		jdbc_password => "123456"
		jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
		statement => "SELECT id,gc_name AS name,last_modify_time FROM goods_card WHERE last_modify_time > :sql_last_value"
		codec => plain { charset => "UTF-8"}
		use_column_value => false
		#tracking_column => last_modify_time
		record_last_run => true
		last_run_metadata_path => "/home/middleware/logstash/data/goods_card/last-value.txt"
        schedule => "* * * * *"
		type => "goods_card"
        jdbc_default_timezone => "Asia/Shanghai"
	}
	
}
filter{
	json {
        source => "message"
        remove_field => ["message"]
    }
}
output {
	if[type] == "supplier_data" {
        elasticsearch {
            hosts => ["127.0.0.1:9200"]
            index => "supplier_data_index"
            document_id => "%{id}"
            document_type => "supplier_data"
        }
    }
	if[type] == "customer_data" {
        elasticsearch {
            hosts => ["127.0.0.1:9200"]
            index => "customer_data_index"
            document_id => "%{id}"
            document_type => "customer_data"
        }
    }
	if[type] == "goods_card" {
        elasticsearch {
            hosts => ["127.0.0.1:9200"]
            index => "goods_card_index"
            document_id => "%{id}"
            document_type => "goods_card"
        }
    }
    stdout {
        codec => json_lines
    }
}

这里配置三个库得索引,es6以后 每个索引下只能有一个type。

配置好后就可以执行以下命令启动logstash就行了
我们假设以上配置文件保存在 /home/mysql-jdbc-input.conf

logstash -f /home/mysql-jdbc-input.conf

若要守护进程运行请用 nohup 命令

nohup logstash -f /home/mysql-jdbc-input.conf >/dev/null &