未安装es的可以参考这篇文章elasticsearch安装
logstash介绍
logstash是一个开源的数据收集引擎,具有准实时数据收集能力。
logstash能够将不同的数据规范的输出到你的目标仓储,比如elasticsearch;为下游的数据分析以及可视化提供数据清洗
最初logstash创新了日志收集的方式,后来用例就越来越多。
logstash 提供了海量的扩展插件用户丰富数据收集的方式。
这样一组配置就能实现一个数据收集
1、input 数据来源
2、filter数据做怎么处理
3、数据要输出到哪里去
input{}
filter{}
ouput{}
我们现在要介绍的就是 logstash-input-jdbc插件,用于收集来自mysql的数据。
logstash-input-jdbc
这个插件可以用于任何实现jdbc标准接口的数据库的数据,只需要在配置文件中配置相关的驱动以及指定驱动的类即可。该插件并未携带相关驱动,如果你需要使用需要下载相关驱动插件。可以通过以下两种方式指定,插件默认支持,无需单独下载。
- 下载mysql 的jdbc驱动包放到logstash-core/lib/jars目录下,在配置文件指定jdbc_driver_class
input {
jdbc {
jdbc_driver_class => "com.mysql.jdbc.Driver"
jdbc_connection_string => "jdbc:mysql://localhost:3306/mydb"
jdbc_user => "mysql"
jdbc_password => "123456"
statement => "SELECT * from songs where id>10"
schedule => "* * * * *"
}
}
- 在配置文件中指定jdbc_driver_library 、jdbc_driver_class
input {
jdbc {
jdbc_driver_library => "/path/mysql-connector-java-5.1.36-bin.jar"
jdbc_connection_string => "jdbc:mysql://localhost:3306/mydb"
jdbc_user => "mysql"
jdbc_password => "123456"
statement => "SELECT * from songs where id>10"
schedule => "* * * * *"
}
}
以上配置中的 schedule => “* * * * *” 星号分别代表分、时、天、周、月 定时任务使用的时 rufus-scheduler
* * * * * 每分钟执行一次
星号代表每,每月的每天的每周的每时的每分钟执行一次
* 1 * * * 每天的1点的每分钟执行
1 1 * * * 每天1点1分执行一次
1 1 * * 1-3 1到3月份每周的每天的1点1分执行
对以上定时任务的使用差不多涵盖了大部分用法。
配置项 | 数据类型 | 是否必填 | 默认值 | 作用 |
clean_run | boolean | No | false | 是否保留之前的运行状态 |
columns_charset | hash | No | {} | 针对某多个列进行编码设置 |
connection_retry_attempts | number | No | 1 | 连接db重试最大次数 |
connection_retry_attempts_wait_time | number | No | 0.5 | 两次连接之间等待时长 |
jdbc_connection_string | string | Yes | no default | jdbc连接串 |
jdbc_default_timezone | string | No | no default | 时区 |
jdbc_driver_class | string | Yes | no default | 驱动类 |
jdbc_driver_library | string | No | no default | 驱动包 |
jdbc_fetch_size | number | No | no default | JDBC fetch大小设置,如果没设置将获取默认jdbc的设置 |
jdbc_page_size | number | No | 100000 | jdbc分页大小 |
jdbc_paging_enabled | boolean | No | false | 是否开启分页 |
jdbc_password | password | No | no default | 密码 |
jdbc_password_filepath | a valid filesystem path | No | no default | 密码文件 |
jdbc_pool_timeout | number | No | 5 | 在引发PoolTimeoutError之前等待获取连接的秒数 |
jdbc_user | string | Yes | no default | 用户名 |
jdbc_validate_connection | boolean | No | false | 是否验证链接 |
jdbc_validation_timeout | number | No | 3600 | 验证超时时长 |
last_run_metadata_path | string | No | “/home/ph/.logstash_jdbc_last_run” | 最后一次执行数据记录文件 |
lowercase_column_names | boolean | No | true | 列名小写 |
parameters | hash | No | {} | sql参数 |
record_last_run | boolean | No | true | 是否记录最后一次执行数据到last_run_metadata_path这个文件 |
schedule | string | No | no default | 定时认去表达式 |
sequel_opts | hash | No | {} | 常规配置 |
sql_log_level | string, one of [“fatal”, “error”, “warn”, “info”, “debug”] | No | info | sql日志级别 |
statement | string | No | no default | sql语句 |
statement_filepath | avalid filesystem path | No | no default | sql文件路径 |
tracking_column | string | No | no default | 追踪某列值(常用于增量更新) |
tracking_column_type | string,one of [“numeric”, “timestamp”] | No | “numeric” | 追踪值得类型 |
use_column_value | boolean | No | false | 是否开启追踪 |
根据以上配置我们就可以很容易得配置一个mysql数据采集得配置文件出来如下:
input{
stdin{
}
jdbc{
jdbc_connection_string => "jdbc:mysql://127.0.0.1/databaseA?characterEncoding=UTF-8&useSSL=false"
jdbc_user => "root"
jdbc_password => "123456"
jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
statement => "SELECT id,supplier_name AS name,last_modify_time FROM supplier_data WHERE last_modify_time > :sql_last_value"
codec => plain { charset => "UTF-8"}
use_column_value => false
#tracking_column => last_modify_time
record_last_run => true
last_run_metadata_path => "/home/middleware/logstash/data/supplier_data/last-value.txt"
schedule => "* * * * *"
type => "supplier_data"
jdbc_default_timezone => "Asia/Shanghai"
}
jdbc{
jdbc_connection_string => "jdbc:mysql://127.0.0.1/databaseB?characterEncoding=UTF-8&useSSL=false"
jdbc_user => "root"
jdbc_password => "123456"
jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
statement => "SELECT id,customer_name AS name,last_modify_time FROM customer_data WHERE last_modify_time > :sql_last_value"
codec => plain { charset => "UTF-8"}
use_column_value => false
#tracking_column => last_modify_time
record_last_run => true
last_run_metadata_path => "/home/middleware/logstash/data/customer_data/last-value.txt"
schedule => "* * * * *"
type => "customer_data"
jdbc_default_timezone => "Asia/Shanghai"
}
jdbc{
jdbc_connection_string => "jdbc:mysql://127.0.0.1/databaseC?characterEncoding=UTF-8&useSSL=false"
jdbc_user => "root"
jdbc_password => "123456"
jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
statement => "SELECT id,gc_name AS name,last_modify_time FROM goods_card WHERE last_modify_time > :sql_last_value"
codec => plain { charset => "UTF-8"}
use_column_value => false
#tracking_column => last_modify_time
record_last_run => true
last_run_metadata_path => "/home/middleware/logstash/data/goods_card/last-value.txt"
schedule => "* * * * *"
type => "goods_card"
jdbc_default_timezone => "Asia/Shanghai"
}
}
filter{
json {
source => "message"
remove_field => ["message"]
}
}
output {
if[type] == "supplier_data" {
elasticsearch {
hosts => ["127.0.0.1:9200"]
index => "supplier_data_index"
document_id => "%{id}"
document_type => "supplier_data"
}
}
if[type] == "customer_data" {
elasticsearch {
hosts => ["127.0.0.1:9200"]
index => "customer_data_index"
document_id => "%{id}"
document_type => "customer_data"
}
}
if[type] == "goods_card" {
elasticsearch {
hosts => ["127.0.0.1:9200"]
index => "goods_card_index"
document_id => "%{id}"
document_type => "goods_card"
}
}
stdout {
codec => json_lines
}
}
这里配置三个库得索引,es6以后 每个索引下只能有一个type。
配置好后就可以执行以下命令启动logstash就行了
我们假设以上配置文件保存在 /home/mysql-jdbc-input.conf
logstash -f /home/mysql-jdbc-input.conf
若要守护进程运行请用 nohup 命令
nohup logstash -f /home/mysql-jdbc-input.conf >/dev/null &