clickhouse作为分析型数据库,相对于mysql,es,mongodb等,其有着优秀的查询性能以及数据压缩存储能力,在处理大数据的查询场景时有独特优势,所以这里搭建一个基本环境进行一定的研究。
服务器选择:192.168.17.81
1. 安装命令
sudo yum install yum-utils
sudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
sudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64
sudo yum install clickhouse-server clickhouse-client
作为测试,这里安装单机版本。yum 安装会自动创建 clickhouse 用户。
2. 修改配置文件
yum 安装完成之后,配置文件,数据文件日志目录设置如下:
配置文件目录:/etc/clickhouse-server/
数据文件目录:/var/lib/clickhouse/
日志文件目录:/var/log/clickhouse-server/
clickhouse 相关的各个目录可以在配置文件 /etc/clickhouse-server/config.xml
中进行修改。
3. 启动服务
sudo /etc/init.d/clickhouse-server start
4. 开启远程连接
vi /etc/clickhouse-server/config.xml
把<listen_host>::</listen_host>的注释打开
重启ClickHouse服务
clickhouse stop
clickhouse start
5. 设置密码
在配置文件/etc/clickhouse-server/users.xml中,设置<users>下的<password>设置,如果没有设置用户名,则使用default进行连接。
可以设置明文密码,也可以设置sha256密码。
# echo -n 123456 | openssl dgst -sha256
(stdin)= 8d969eef6ecad3c29a3a629280e686cf0c3f5d5a86aff3ca12020c923adc6c92
设置密码:
<password_sha256_hex>8d969eef6ecad3c29a3a629280e686cf0c3f5d5a86aff3ca12020c923adc6c92</password_sha256_hex>
明文密码:
<password>123456</password>
设置完成后,重启服务:
systemctl restart clickhouse-server
6. 通过命令行客户端进行访问
启动命令行如下:
clickhouse-client -h [ip] --port [port] -u [ussername] --password [password]
这里的命令行参数和mysql有一定的差异,比如--port后面指定端口号,--password 指定密码。
--host, -h – 服务端的 host 名称, 默认是 'localhost'。 您可以选择使⽤ host 名称或者 IPv4 或 IPv6 地址。
--port – 连接的端⼝,默认值: 9000。注意 HTTP 接⼝以及 TCP 原⽣接⼝是使⽤不同端⼝的。
--user, -u – ⽤户名。 默认值: default。
--password – 密码。 默认值: 空字符串。
--query, -q – ⾮交互模式下的查询语句.
--database, -d – 默认当前操作的数据库. 默认值: 服务端默认的配置 (默认是 default )。
--multiline, -m – 如果指定,允许多⾏语句查询(Enter 仅代表换⾏,不代表查询语句完结)。
--multiquery, -n – 如果指定, 允许处理⽤逗号分隔的多个查询,只在⾮交互模式下⽣效。
--format, -f – 使⽤指定的默认格式输出结果。
--vertical, -E – 如果指定,默认情况下使⽤垂直格式输出结果。这与 '--format=Vertical' 相同。在这种格式中,每个值都在单独的⾏上打印,这种⽅式对显示宽表很有帮助。
--time, -t – 如果指定,⾮交互模式下会打印查询执⾏的时间到 'stderr' 中。
--stacktrace – 如果指定,如果出现异常,会打印堆栈跟踪信息。
-config-file – 配置⽂件的名称。...
6.1 创建和删除数据库
-- 创建数据库
create database test;
-- 删除数据库
drop database test;
-- 查看数据库列表
show databases;
-- 查看当前数据库
select currentDatabase();
-- 查看表
show tables;
6.2 创建表
CREATE TABLE `plat_access_perm` (
`access_id` int(11),
`developer_id` String ,
`developer_name` String ,
`access_key` String ,
`access_secret` String ,
`merchant_no` String ,
`encrypt_alg` String ,
`private_key` String ,
`public_key` String ,
`session_time` datetime ,
`access_token` String ,
`token_time` datetime ,
`token_valid` int(10) ,
`replay_check` int(2) ,
`replay_times` int(10) ,
`ip_whitelist` String ,
`ip_blacklist` String ,
`perm_apilist` String,
`perm_query` tinyint(1) ,
`perm_add` tinyint(1) ,
`perm_update` tinyint(1) ,
`perm_delete` tinyint(1),
`max_tps` int(11) ,
`max_qps` int(11) ,
`create_by` String ,
`create_time` datetime ,
`update_by` String ,
`update_time` datetime
) ENGINE = MergeTree
PARTITION BY toYYYYMM(create_time)
ORDER BY create_time
SETTINGS index_granularity = 8192;
可以看出,创建表和mysql创建表还是有一定差别的,主要是数据类型和引擎参数。
6.3 查看表的分区信息
select partition_id,partition, name, active,min_block_number,max_block_number,level from system.parts WHERE table = 'box_bill';
┌─partition_id─┬─partition─┬─name────────┬─active─┬─min_block_number─┬─max_block_number─┬─level─┐
│ all │ tuple() │ all_1_31_2 │ 1 │ 1 │ 31 │ 2 │
│ all │ tuple() │ all_32_37_1 │ 1 │ 32 │ 37 │ 1 │
│ all │ tuple() │ all_38_43_1 │ 1 │ 38 │ 43 │ 1 │
│ all │ tuple() │ all_44_49_1 │ 1 │ 44 │ 49 │ 1 │
│ all │ tuple() │ all_50_50_0 │ 1 │ 50 │ 50 │ 0 │
│ all │ tuple() │ all_51_51_0 │ 1 │ 51 │ 51 │ 0 │
-- 删除分区
alter table xxx drop partition '2018-08-08';
可以看出,没有指定分区,所以放到了默认分区all。
partition_id:根据分区规则生成
min_block_number:1,最小块编号,MergeTree引|擎从1开始计数,每次+1;
max block_number:1,最大块编号,新插入的数据,最小与最大编号一致;
level:0,这个可以理解为合并的次数,新插入的数据都是0,每合并1次+1。
6.4 查看后台进程
-- 这个命令和mysql是一样的
show processlist
-- 如果进程太多,也可用通过查询系统表 processes,
select * from system.processes
-- 指定主要关心字段
select user,query_id,query,elapsed,memory_usage from system.processes;
一般是在性能大幅下降的时候,通过查看正在执行的进程,以便查找什么操作导致的,这点和mysql的思路是一致的。
-- 通过上面指令获取到进程相关信息后,可以用query_id条件kill进程
KILL QUERY WHERE query_id='2e33f3ae-f7e1-4c10-af8c-af96aff20837'
6.5 从mysql迁移数据
create table box_bill ENGINE=MergeTree order by bill_id AS SELECT * from mysql('ip:port', 'dbname', 'tablename', 'username', 'password');
Query id: 983249f9-459f-4e80-97c4-344702368127
Ok.
0 rows in set. Elapsed: 2017.381 sec. Processed 53.46 million rows, 21.81 GB (26.50 thousand rows/s., 10.81 MB/s.)
6.6 执行sql脚本文件
clickhouse-client --user xxx --password xxx --multiquery < /root/temp.sql
类似与mysql的source命令。