9使用案例

9.1 创建分区表

1. 创建 分区表 testdb.worker

 

create table testdb.worker

(

        id Int32,

        name String,

        gender Int16,

        birthday Date,

        cert_num String,

        department_id Int32

)

ENGINE = MergeTree()

primary key id

partition by department_id

ORDER BY id;

 

2. 插入数据

 

insert into testdb.worker(id, name, gender, birthday, cert_num, department_id)

VALUES

(1, 'amy', 0, '1990-01-01 00:00:00', '000000', 1),

(2, 'bob', 1, '1991-01-01 00:00:00', '000001', 1),

(3, 'tom', 1, '1992-01-01 00:00:00', '000002', 2),

(4, 'ted', 1, '1993-01-01 00:00:00', '000003', 2),

(5, 'lily', 0, '1992-01-01 00:00:00', '000005', 3),

(6, 'jack', 1, '1993-01-01 00:00:00', '000006', 3);

 

在数据插入后,分区可以自动创建。

 

3. 查看所有表 worker 的所有分区

 

select partition,name,database,table,engine,path from system.parts where table='worker';

 

┌─partition─┬─name────┬─database─┬─table──┬─path──────────────────────────────────────────┐

│ 1  │ 1_1_1_0 │ testdb     │ worker │/var/lib/clickhouse/data/testdb/worker/1_1_1_0/ │

│ 2  │ 2_2_2_0 │ testdb     │ worker │/var/lib/clickhouse/data/testdb/worker/2_2_2_0/ │

│ 3  │ 3_3_3_0 │ testdb     │ worker │/var/lib/clickhouse/data/testdb/worker/3_3_3_0/ │

└───────────┴─────────┴──────────┴────────┴───────────────────────────────────────────────┘

 

上面的结果展示了这张表的3个分区的信息。

 

4. 其他操作

 

4.1 剥离分区2:

alter table testdb.worker detach partition 2;

 

4.2 查看被剥离的分区:

select database,table,partition_id,name from system.detached_parts where table = 'worker';

 

┌─database─┬─table──┬─partition_id─┬─name────┐

│ testdb      │ worker │ 3             │ 2_2_2_0 │

└──────┴────┴───────┴─────┘

 

分区2 被剥离后,在 /var/lib/clickhouse/data/testdb/worker/detached/ 中,会产生一个目录 2_2_2_0,分区2 的数据存放在这里。

 

4.3 将 partition 2 重新添加到表worker上:

alter table testdb.worker attach partition 2;

 

4.4 清空分区2:

alter table testdb.worker clear partition 2;

 

4.5 删除分区2:

alter table testdb.worker drop partition 2;


4.6 冻结分区2:

alter table testdb.worker freeze partition 2;


冻结分区是备份的一种方式。分区冻结后,在 /var/lib/clickhouse/shadow/ 中会新增一个名称为一个数字的目录。例如1,接下来的目录层级依次是 data/testdb/worker/2_2_2_0/。 数据存放在 2_2_2_0 中。

9.2 搭建 ZooKeeper集群

ClickHouse 支持原生的分布式集群。ClicHouse集群的节点需要借助zookeeper 进行通信。要注意的是,ClickHouse 集群与 Zookeeper集群不是紧密耦合的。他们通过接口来通信。因此,Zookeeper 集群和Clickhouse 集群部署不要求部署在相同的服务器上,也不需要有相同数量的节点。

 

Zookeeper

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

ZooKeeper包含一个简单的原语集,提供Java和C的接口。

ZooKeeper代码版本中,提供了分布式独享锁、选举、队列的接口,代码在$zookeeper_home\src\recipes。其中分布锁和队列有Java和C两个版本,选举只有Java版本。

 

下面我们介绍搭建zookeeper 集群的方法。我们将在 10.19.134.22,10.19.134.23,10.19.134.24以及10.19.134.27 这四个节点上安装zookeeper 。下面的操作需要在每个节点上单独完成。

 

1. 首先安装jdk。本文中,我们使用yum安装 jdk-11:

 yum -y install java-11-openjdk.x86_64

 

2. 下载zookeeper二进制程序。本文我们下载的是 apache-zookeeper-3.5.8-bin.tar.gz。

注意,从 zookeeper-3.5.5 开始,只有名字带有 bin 的包才是我们可用的。而源码apache-zookeeper-3.5.8.tar.gz无法直接使用,编译也会出错。

 

3. 将下载后的源码解压到特定目录,本文中,这个目录是 /opt/:

tar ./apache-zookeeper-3.5.8-bin.tar.gz -c /opt/

 

4. 为方便使用,将解压后的目录 apache-zookeeper-3.5.8 重命名为 zookeeper-3.5.8:

mv apache-zookeeper-3.5.8 zookeeper-3.5.8

 

5. 进入解压后的目录 /opt/zookeeper-3.5.8,这里它也是安装目录:

cd /opt/zookeeper-3.5.8

 

6. 通过配置文件模板 zoo_sample.cfg 创建配置文件zoo.cfg:

cp ./conf/zoo_sample.cfg ./conf/zoo.cfg

 

7. 编辑 ./conf/zoo.cfg 文件,修改或添加如下参数:

 

dataDir=/home/zookeeper/data

dataLogDir=/home/zookeeper/log

clientPort=2181

server.1=10.19.134.22:2888:3888

server.2=10.19.134.23:2888:3888

server.3=10.19.134.24:2888:3888

server.3=10.19.134.27:2888:3888

 

这里,clientPort 表示客户端可连接的端口,默认是2181;

server.1,server.2,server.3以及server.4 分表表示我们zookeeper集群中的三个节点;

2888端口号是zookeeper服务之间通信的端口;

3888端口是zookeeper与其他应用程序通信的端口。

 

8. 创建zookeeper数据目录 /home/zookeeper/data 和日志目录 /home/zookeeper/log:

mkdir -p /home/zookeeper/data

mkdir -p /home/zookeeper/log

 

9. 创建 myid 文件

cd /home/zookeeper/data

vi myid

 

其内容是一个数字,对每个节点不同。建议它与 zoo.cfg 中对应配置项 server. 后面的数字相同。

 

10. 启动 zookeeper。

./bin/zkServer.sh start

 

如果zookeeper无法启动,你可以在

/opt/zookeeper-3.5.8/logs 和 /home/zookeeper/log 中查找日志。

如果各个zookeeper节点启动成功,则zookeeper 集群搭建完成。

9.3 搭建 clickhouse 多分片集群并创建分布式表

本节中,我们要搭建的是三个数据节点的集群,数据有3个分片和1个副本。

三个节点的ip地址分别如下:

节点1:10.19.134.22

节点2:10.19.134.23

节点3:10.19.134.24

 

下面是集群的结构图:

 

clickhouse ReplacingMergeTree 分片规则 hash hiveHash clickhouse分区使用_数据

 

 

 

下面我们介绍集群搭建的方法。

 

1. 参照9.2 节,搭建三个节点上的 zookeeper 集群。

 

2. 创建用于访问集群的用户。在本文中,用户名是clickhouse,密码是 “clickhouse”。 具体的方法是,编辑配置文件 /etc/clickhouse-server/users.xml中,在 yandex->users 中,添加下列内容:

 

<clickhouse>        <password_sha256_hex>7e099f39b84ea79559b3e85ea046804e63725fd1f46b37f281276aae20f86dc3</password_sha256_hex>

            <access_management>1</access_management>

            <networks incl="networks" replace="replace">

                <ip>::/0</ip>

            </networks>

            <profile>default</profile>

            <quota>default</quota>

</clickhouse>

 

注意 <password_sha256_hex> 中的内容是你所设置密码的密文通过SHA256算法散列后的结果。获取散列结果的方法如下,这里明文密码是 “clickhouse”:

 

[root@node01 ~]# echo -n "clickhouse" | sha256sum | tr -d '-'

7e099f39b84ea79559b3e85ea046804e63725fd1f46b37f281276aae20f86dc3

 

3. 我们在 /etc/clickhouse-server/metrika.xml 中配置zookeeper 和 clickhouse集群信息。内容如下。

 

<!-- metrika.xml  -->

<yandex>

<clickhouse_remote_servers>

    <cluster_3shards_1replicas>

        <shard>

            <replica>

                <host>10.19.134.22</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

            </replica>

        </shard>

        <shard>

            <replica>

                <host>10.19.134.23</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

            </replica>

        </shard>

        <shard>

            <replica>

                <host>10.19.134.24</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

            </replica>

        </shard>

    </cluster_3shards_1replicas>

</clickhouse_remote_servers>

 

<zookeeper-servers>

    <node index="1">

        <host>10.19.134.22</host>

        <port>2181</port>

    </node>

    <node index="2">

        <host>10.19.134.23</host>

        <port>2181</port>

    </node>

    <node index="3">

        <host>10.19.134.24</host>

        <port>2181</port>

    </node>

</zookeeper-servers>

 

在上面的配置文件中,<cluster_3shards_1replicas> 表示集群的名称。在这个集群中, <shard> 标签和 <replica> 标签中分别配置了分片和副本的信息。同时,我们还配置了数据库的的用户clickhouse和它的明文密码(必须是明文,否则会出错)。

 

4. 重启clickhouse

systemctl start clickhouse-server

 

集群搭建成功后,我们可以使用用户 clickhouse 来创建分片表。

 

1. 登录任意clickhouse节点,在集群中创建全局数据库 testdb:

create database testdb on cluster cluster_3shards_1replicas;

 

2. 进入testdb,在集群中每个节点上创建本地表person。

create table testdb.person on cluster cluster_3shards_1replicas

(

    id Int32,

    name String,

    gender Int16,

    birthday Date,

    cert_num String,

    department_id Int32

)

ENGINE = MergeTree()

primary key id

ORDER BY id

SETTINGS index_granularity = 8192;

 

3. 接着创建分布式表 person_dist,分布式表不存放数据,而是作为读写本地表的接口:

 

create table testdb.person_dist on cluster cluster_3shards_1replicas

AS testdb.person

ENGINE =  Distributed(cluster_3shards_1replicas, testdb, person, department_id);

 

在上面的sql语句中,

AS test.person 表示 testdb.person_dist 表结构与 test.person 一致,

Distributed(cluster_3shards_1replicas, testdb, person, department_id) 的四个参数依次表示 集群的名称,数据库的名称 ,本地表的名称,分片键,注意它们都没有引号。第四个参数如果指定为 rand(), 则表示随机分片。

 

4. 向分布式表中插入数据:

insert into testdb.person_dist(id, name, gender, birthday, cert_num, department_id)

VALUES

(1, 'amy', 0, '1990-01-01 00:00:00', '000000', 1),

(2, 'bob', 1, '1991-01-01 00:00:00', '000001', 1),

(3, 'tom', 1, '1992-01-01 00:00:00', '000002', 2),

(4, 'ted', 1, '1993-01-01 00:00:00', '000003', 2),

(5, 'lily', 0, '1994-01-01 00:00:00', '000004', 3),

(6, 'john', 1, '1995-01-01 00:00:00', '000005', 3);

 

5. 可以在分布式表 person_dist 中查看到所有数据。

 

node03 :) select * from testdb.person_dist;

 

SELECT *

FROM testdb.person_dist

 

┌─id─┬─name─┬─gender─┬───birthday─┬─cert_num─┬─department_id─┐

│  3 │ tom  │      1 │ 1992-01-01 │ 000002   │             2 │

│  4 │ ted  │      1 │ 1993-01-01 │ 000003   │             2 │

└────┴──────┴────────┴────────────┴──────────┴───────────────┘

┌─id─┬─name─┬─gender─┬───birthday─┬─cert_num─┬─department_id─┐

│  1 │ amy  │      0 │ 1990-01-01 │ 000000   │             1 │

│  2 │ bob  │      1 │ 1991-01-01 │ 000001   │             1 │

└────┴──────┴────────┴────────────┴──────────┴───────────────┘

┌─id─┬─name─┬─gender─┬───birthday─┬─cert_num─┬─department_id─┐

│  5 │ lily │      0 │ 1994-01-01 │ 000004   │             3 │

│  6 │ john │      1 │ 1995-01-01 │ 000005   │             3 │

└────┴──────┴────────┴────────────┴──────────┴───────────────┘

6 rows in set. Elapsed: 0.116 sec.

 

从上面的查询结果可以看出,插入到testdb.person 中的数据被划分到了三个分片中。

9.4 搭建 clickhouse 多分片多副本集群并创建分布式表

ClickHouse 支持集群中同一分片的多个节点之间的相互数据复制,也就是多副本。但它不支持在同一实例上的多副本。也就是说副本,必须位于不同的实例上,也就是不同节点或不同的端口上。

例如,如果要配置3分片2副本的集群,你可能需要在6台服务器上分别安装一个clickhouse 实例,或者在3台服务器上各安装两个 clickhouse 实例。

集群划分如下:

 

                               副本

分片

Replica01

Replica02

Shard01

10.19,134.22

10.19,134.25

Shard02

10.19.134.23

10.19.134.26

Shard03

10.19.134.24

10.19.134.27

 

下面我们介绍在6台服务器上搭建3分片2副本的集群的方法。

 

1. 参照9.2 节,搭建zookeeper 集群。注意不需要每个节点上都安装zookeeper。注意,Zookeeper 集群和Clickhouse 集群部署不要求部署在相同的服务器上,也不需要有相同数量的节点。

 

2. 创建用于访问集群的用户。在本文中,用户名是clickhouse,密码是 “clickhouse”。 具体的方法是,编辑配置文件 /etc/clickhouse-server/users.xml中,在 yandex->users 中,添加下列内容:

 

<clickhouse>        <password_sha256_hex>7e099f39b84ea79559b3e85ea046804e63725fd1f46b37f281276aae20f86dc3</password_sha256_hex>

            <access_management>1</access_management>

            <networks incl="networks" replace="replace">

                <ip>::/0</ip>

            </networks>

            <profile>default</profile>

            <quota>default</quota>

</clickhouse>

 

注意 <password_sha256_hex> 中的内容是你所设置密码的密文通过SHA256算法散列后的结果。获取散列结果的方法如下,这里明文密码是 “clickhouse”:

 

[root@node01 ~]# echo -n "clickhouse" | sha256sum | tr -d '-'

7e099f39b84ea79559b3e85ea046804e63725fd1f46b37f281276aae20f86dc3

 

3. 需要在 metrika.xml 中添加类似下面的内容。

<!-- metrika.xml  -->

<yandex>

<clickhouse_remote_servers>

    <cluster_3shards_2replicas>

        <shard>

            <internal_replication>false</internal_replication>

            <replica>

                <host>10.19.134.22</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

             </replica>

             <replica>

                <host>10.19.134.25</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

             </replica>

        </shard>

        <shard>

            <internal_replication>false</internal_replication>

            <replica>

                <host>10.19.134.23</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

             </replica>

             <replica>

                <host>10.19.134.26</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

             </replica>

        </shard>

        <shard>

            <internal_replication>false</internal_replication>

            <replica>

                <host>10.19.134.24</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

            </replica>

            <replica>

                <host>10.19.134.27</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

             </replica>

        </shard>

    </cluster_3shards_2replicas>

</clickhouse_remote_servers>

 

<zookeeper-servers>

    <node index="1">

        <host>10.19.134.22</host>

        <port>2181</port>

    </node>

    <node index="2">

        <host>10.19.134.23</host>

        <port>2181</port>

    </node>

    <node index="3">

        <host>10.19.134.24</host>

        <port>2181</port>

    </node>

</zookeeper-servers>

 

在上面的配置文件中,<cluster_3shards_2replicas> 表示集群的名称。在这个集群中, <shard> 标签和 <replica> 标签中分别配置了分片和副本的信息。一个分片包含了两个副本。分片内 <internal_replication> 标签的含义是,数据库中的表本身是否是复制表。若它为false,则表示表不是复制表,而复制是集群级别的行为。

 

4. 重启clickhouse

systemctl start clickhouse-server

 

现在,我们创建多副本的分布式表。

 

1. 登录一个clickhouse节点,在集群中创建全局数据库 testdb2:

create database testdb2 on cluster cluster_3shards_2replicas;

 

2. 进入testdb2,在集群中每个节点上创建本地表person。

create table testdb2.person on cluster cluster_3shards_1replicas

(

    id Int32,

    name String,

    gender Int16,

    birthday Date,

    cert_num String,

    department_id Int32

)

ENGINE = MergeTree()

primary key id

ORDER BY id

SETTINGS index_granularity = 8192;

 

3. 接着创建分布式表 person_dist,分布式表不存放数据,而是作为读写本地表的接口:

create table testdb2.person_dist on cluster cluster_3shards_1replicas

AS testdb2.person

ENGINE =  Distributed(cluster_3shards_1replicas, testdb2, person, department_id);

 

上面的sql语句中,

AS testdb2.person 表示 testdb2.person_dist 表结构与 testdb2.person 一致。

Distributed(cluster_3shards_1replicas, testdb2, person, department_id) 的四个参数依次表示 集群的名称,数据库的名称 ,本地表的名称,分片键。注意它们都没有引号。

第四个参数如果指定为 rand(), 则表示随机分片。

 

4. 向分布式表中插入数据:

insert into testdb2.person_dist(id, name, gender, birthday, cert_num, department_id)

VALUES

(1, 'amy', 0, '1990-01-01 00:00:00', '000000', 1),

(2, 'bob', 1, '1991-01-01 00:00:00', '000001', 1),

(3, 'tom', 1, '1992-01-01 00:00:00', '000002', 2),

(4, 'ted', 1, '1993-01-01 00:00:00', '000003', 2),

(5, 'lily', 0, '1994-01-01 00:00:00', '000004', 3),

(6, 'john', 1, '1995-01-01 00:00:00', '000005', 3);

 

可以在分布式表 person_dist 中查看到所有数据。

 

5. 验证多副本。在10.19.134.22 和 10.19.134.25 上,分别查看表testdb2.person。

 

在 10.19.134.22 上:

 

node01 :) select * from testdb2.person;

 

clickhouse ReplacingMergeTree 分片规则 hash hiveHash clickhouse分区使用_配置文件_02

 

 

 

 

在 10.19.134.25 上:

 

node04 :) select * from testdb2.person;

 

clickhouse ReplacingMergeTree 分片规则 hash hiveHash clickhouse分区使用_数据_03

可以发现两张表的数据完全相同。

9.5 创建复制表

仅MergeTree系列中的表支持复制:

  • ReplicatedMergeTree
  • ReplicatedSummingMergeTree
  • ReplicatedReplacingMergeTree
  • ReplicatedAggregatingMergeTree
  • ReplicatedCollapsingMergeTree
  • ReplicatedVersionedCollapsingMergeTree
  • ReplicatedGraphiteMergeTree

复制在单个表而不是整个服务器上进行。服务器可以同时存储复制表和非复制表。

复制不依赖于分片。每个分片都有自己的独立复制。

我们以在两个节点上的复制表为例。

这里两个节点的ip地址分别为 10.19.134.24 和 10.19.134.27。

参照9.2 节,搭建zookeeper 集群。

 

2. 在两个节点上分别配置 metrika.xml,首先配置如下内容:

 

<!-- metrika.xml  -->

<yandex>

<clickhouse_remote_servers>

    <cluster_1shards_2replicas>

        <shard>

            <internal_replication>true</internal_replication>

            <replica>

                <host>10.19.134.24</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

            </replica>

            <replica>

                <host>10.19.134.27</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

            </replica>

        </shard>

    </cluster_1shards_2replicas>

</clickhouse_remote_servers>

 

<zookeeper-servers>    

<node index="2">

        <host>10.19.134.24</host>

        <port>2181</port>

    </node>

    <node index="3">

        <host>10.19.134.27</host>

        <port>2181</port>

    </node>

</zookeeper-servers>

</yandex>

 

这里,<internal_replication>true</internal_replication> 表示集群中的表支持自我复制。这是1分片2副本的集群,但它的复制是表级别的行为。

分别编辑两个节点的 metrika.xml, 在 <yandex>…</yandex> 内部,分别添加如下内容,并保存:

在节点 10.19.134.24的 metrika.xml上,添加:

<macros>

    <shard>01</shard>

    <replica>01</replica>

</macros>

 

在节点 10.19.134.27的 metrika.xml上,添加:

<macros>

    <shard>01</shard>

    <replica>02</replica>

</macros>

 

4. 重启clickhouse

systemctl restart clickhouse-server.service

 

现在,我们创建多副本的分布式表。

1. 登录任意clickhouse节点,创建全局的数据库 testdb3

create database testdb3 on cluster cluster_1shards_2replicas;

 

2. 在节点 10.19.134.24 上创建全局的复制表,引擎为 ReplicatedMergeTree:

create table testdb3.person ON cluster cluster_1shards_2replicas

(

    id Int32,

    name String,

    gender Int16,

    birthday Date,

    cert_num String,

    department_id Int32

)

ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/testdb3/person’, '{replica}')

ORDER BY id

SETTINGS index_granularity = 8192;

 

注意,这里 /clickhouse/tables/{shard}/testdb3/person是这张表在zookeeper中的节点路径(请百度zookeeper-znode)。开头是 /clickhouse/tables/;{shard} 会被自动映射为 metrika.xml 中配置的 macros->shard 的值;testdb3 是数据库名;person 是表名;{replica} 是它在zookeeper中的复制(replica)的名称,会被自动映射为 metrika.xml 中配置的 macros->shard 的值。

 

我们可以在zookeeper 中看到这张表的路径:

 

[root@node04 bin]# ./zkCli.sh -server 127.0.0.1

[zk: 127.0.0.1(CONNECTED) 1] ls /clickhouse/tables

[01]

[zk: 127.0.0.1(CONNECTED) 3] ls /clickhouse/tables/01/testdb3/person

Node does not exist: /clickhouse/tables/01/testdb2/person

[zk: 127.0.0.1(CONNECTED) 4] ls /clickhouse/tables/01/testdb3/

Path must not end with / character

[zk: 127.0.0.1(CONNECTED) 5] ls /clickhouse/tables/01/testdb3

[person]

[zk: 127.0.0.1(CONNECTED) 8] ls /clickhouse/tables/01/testdb3/person/replicas

[01, 02]

 

3. 节点 10.19.134.24 上向 testdb3.person 再插入数据:

insert into testdb3.person (id, name, gender, birthday, cert_num, department_id)

VALUES

(1, 'amy', 0, '1990-01-01 00:00:00', '000000', 1),

(2, 'bob', 1, '1991-01-01 00:00:00', '000001', 1);

 

4. 在10.19.134.24 上查看表 testdb3.person

node03 :) select * from testdb3.person;

 

clickhouse ReplacingMergeTree 分片规则 hash hiveHash clickhouse分区使用_zookeeper_04

 

 

5. 在 10.19.134.27 上查看表 testdb3.person:

 

node06 :) select * from testdb3.person;

 

clickhouse ReplacingMergeTree 分片规则 hash hiveHash clickhouse分区使用_配置文件_05

 

 

小知识

Replicated 系列的引擎的复制是表自身的行为,与集群无关。

事实上,我们可以在 metrika.xml 中不配置 <clickhouse_remote_servers>标签,只配置<zookeeper-servers>,就可以实现表之间的复制。

 

例如,我们在两个节点上分别创建表 person,他们的复制路径相同。

在节点1上创建:

create table testdb.person

(

    id Int32,

name String,

……

)

ENGINE = ReplicatedMergeTree('/clickhouse/tables/testdb/person’,'replica1')

ORDER BY id

SETTINGS index_granularity = 8192;

 

在节点2上创建:

create table testdb.person

(

    id Int32,

    name String,

    ……

)

ENGINE = ReplicatedMergeTree('/clickhouse/tables/testdb/person’,'replica2')

ORDER BY id

SETTINGS index_granularity = 8192;

 

这样即可实现两个表之间的复制

 

 

9.6 clickhouse 集群扩容

在8.3 节中,我们创建了包含3个节点的集群。如果我们想在这个集群中添加一个新的节点,该如何操作?

 

下面是在集群中添加一个新节点(10.19.134.27)的方法。

1. 首先在新的节点 10.19.134.27 上安装 clickhouse,方法与相同。

 

2. 修改新节点上的目录 /etc/clickhouse-server/ 中的各个 xml文件。其内容和原集群中每个节点上相同位置的文件相同。

 

3. 在每个新旧节点上,修改文件 /etc/clickhouse-server/metrika.xml ,将标签 <cluster_3shards_1replicas></cluster_3shards_1replicas> 修改为

<cluster_4shards_1replicas></cluster_4shards_1replicas>

这里,cluster_4shards_1replicas 是扩容后集群的名称。

同时在路径 yandex -> clickhouse_remote_servers-> cluster_4shards_1replicas 内部添加新节点的信息:

 

       <shard>

            <replica>

                <host>10.19.134.27</host>

                <port>9000</port>

                <user>clickhouse</user>

                <password>clickhouse</password>

            </replica>

        </shard>

 

4. 在每个节点上,重启 clickhouse

systemctl restart clickhouse-server

 

5. 在新节点上创建数据库,表等数据库对象。使新节点和与老节点上的数据库结构相同。

 

6. 在集群上重建分布式表。这里以 testdb.person_dist

drop table testdb.person_dist on cluster cluster_4shards_1replicas;

create table testdb.person_dist  on cluster cluster_4shards_1replicas

AS testdb.person

ENGINE =  Distributed(cluster_4shards_1replicas, testdb, person, department_id);

 

7. 完成上面的操作后,person_dist 中新增的数据就会分布到四个节点的 person 表中。注意,ClickHouse 不提供数据重分布功能。