ClickHouse需要依赖ZooKeeper使用,本文对ZooKeeper做简单介绍。
一、ZooKeeper定义
ZooKeeper译名为“动物园管理员”。各个子系统就好比动物园里的动物,为了使各个子系统能正常为用户提供统一的服务,必须需要一种机制来进行协调——这就是ZooKeeper。
ZooKeeper是一个开源的分布式协调服务。分布式应用程序可以基于 ZooKeeper实现如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、配置维护,名字服务、分布式同步、分布式锁和分布式队列等功能。原本是Apache Hadoop的一个组件,现在被拆分为一个Hadoop的独立子项目,在HBase(Hadoop的另外一个被拆分出来的子项目,用于分布式环境下的超大数据量的DBMS)中也用到了ZooKeeper集群。设计目的是为了减轻分布式应用程序所承担的协调任务,通过选举算法和集群复制可以避免单点故障。
二、ZooKeeper特性
1 | Zookeeper为一个leader,多个follower组成的集群 |
2 | 全局数据一致:每个server保存一份相同的数据副本,client无论连接到哪个server,数据都是一致的 |
3 | 分布式读写,更新请求转发,由leader实施 |
4 | 更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行 |
5 | 数据更新原子性,一次数据更新要么成功,要么失败 |
6 | 实时性,在一定时间范围内,client能读到最新数据 |
三、ZooKeeper的配置文件
Zookeeper 配置并不多,每个节点的配置文件zoo.cfg都是一样的,只有myid文件不一样。myid的值必须是zoo.cfg中server.的数值。
tickTime=2000 | 基本时间单元,代表发送心跳的间隔时间,单位毫秒 |
initLimit=30000 | tickTime的倍数,follower和leader之间的最长心跳时间 |
syncLimit=10 | tickTime的倍数,leader和follower之间发送消息,请求和应答的最大时间 |
dataDir=/zookeeper/data | 持久化数据目录 |
dataLogDir=/zookeeper/logs | 日志目录,如果没设定,默认和dataDir相同 |
clientPort=2181 | 监听client连接的端口号 |
maxClientCnxns=2000 | zookeeper最大连接 |
maxSessionTimeout=60000000 | 最大的会话超时时间 |
autopurge.snapRetainCount=10 | 保留snapshot的文件数目,默认3个 |
autopurge.purgeInterval=1 | 自动清理snapshot和事务日志,清理频率,单位是小时 |
globalOutstandingLimit=200 | 等待处理的最大请求数量,server端会拒绝client的请求,每一个client至少能有一个outstanding请求 |
preAllocSize=131072 | 日志文件大小kb,切换快照生成日志 |
snapCount=3000000 | 两次事务快照之间可执行事务的次数,默认的配置值为100000 |
leaderServes=yes | leader是否接受client请求,默认为yes即leader可以接受client的连接,当节点数为>3时,建议关闭 |
standaloneEnabled=false | 是否启用独立模式 |
server.1=IP01:2888:3888 | 服务编号,2888leader\follower传输信息端口,3888推举端口 |
server.2=IP02:2888:3888 | 服务编号,2888leader\follower传输信息端口,3888推举端口 |
server.3=IP03:2888:3888 | 服务编号,2888leader\follower传输信息端口,3888推举端口 |
server.4=IP04:2888:3888:observer | 服务编号,observer可以认为是主的clone copy,不参与投票,缩短选举时间 |
server.5=IP05:2888:3888:observer | 服务编号,observer可以认为是主的clone copy,不参与投票,缩短选举时间 |
四、ZooKeeper数据结构
ZooKeeper路径起始为 /,子节点必须是绝对路径,如同Unix系统中的文件路径
五、ZooKeeper节点数据结构属性
Zxid | ZooKeeper状态的每一次改变,都对应着一个递增的Transaction id,该id称为zxid,全局唯一 |
Session | 在client和server通信之前,首先需要建立连接,该连接称为session。连接建立后,如果发生连接超时、授权失败或者显式关闭连接,连接便处于CLOSED状态,此时session结束。 |
persistent | persistent节点不和特定的session绑定,不会随着创建该节点的session的结束而消失,而是一直存在,除非该节点被显式删除。 |
ephemeral | ephemeral节点是临时性的,如果创建该节点的session结束了,该节点就会被自动删除。使用-e参数指定创建ephemeral节点。 |
watch | watch的意思是监听感兴趣的事件。在命令行中,以下几个命令可以指定是否监听相应的事件。 |
ticks | 当在使用多机ZooKeeper服务时,服务器之间会使用ticks票据来定义事件(比如状态上传、会话超时、连接超时等等)的计时 |
[zk:localhost:2181(CONNECTED)5]stat /Apps/App1/SunApp1
cZxid = 0x700000005 | 节点创建时的zxid |
ctime = Tue Oct 16 09:54:34 CST 2018 | 节点创建时的时间 |
mZxid = 0x700000005 | 节点最新一次更新发生时的zxid |
mtime = Tue Oct 16 09:54:34 CST 2018 | 节点最新一次更新发生时的时间 |
pZxid = 0x735fb57ac | 与该节点的子节点(或该节点)的最近一次创建或删除的时间戳对应 |
cversion = 2 | 子节点版本号 |
dataVersion = 0 | 节点数据的版本号 |
aclVersion = 0 | 节点ACL(授权信息)的版本号 |
ephemeralOwner = 0x0 | 如果该节点是临时节点,则值为该节点绑定的session id; 如果ephemeralOwner值为0,则该节点不是临时节点 |
dataLength = 0 | 节点数据的字节数 |
numChildren = 2 | 子节点个数 |
六、ZooKeeper集群
通常Zookeeper由2n+1台servers组成,每个server都知道彼此的存在。每个server都维护的内存状态镜像以及持久化存储的事务日志和快照。为了保证Leader选举能过得到多数的支持,所以ZooKeeper集群的数量一般为奇数。对于2n+1台server,只要有n+1台(大多数)server可用,整个系统保持可用。
- 领导者(leader),负责进行投票的发起和决议,更新系统状态。
- 学习者(learner),包括跟随者(follower)和观察者(observer)。
- follower用于接受客户端请求并向客户端返回结果,在选主过程中参与投票
- observer可以接受客户端请求,将写请求转发给leader,但observer不参加投票过程,只同步leader的状态,observer的目的是为了扩展系统,提高读取速度。
- 客户端(client),请求发起方,读请求直接由本地的复制数据库提供数据。
七、ZooKeeper Server主要组件
- Request processor(请求处理器):包含多种接口。对每个请求,都是通过生产链的方式,一步步地进行处理。比如:
PreRequestProcessor一般是放在处理链的起始部分的,它对请求做一些预处理,如检查Session、检查要操作的节点及其父节点是否存在、检查客户端是否有权限等;
ProposalRequestProcessor用于向Follower发送Proposal,来完成ZAB算法;
SyncRequestProcessor用于将请求持久化到磁盘中; - Atomic Broadcast(ZAB协议):实现了主备模式下的系统架构,保持集群中各个副本之间的数据一致性。ZAB协议定义了选举(election)、发现(discovery)、同步(sync)、广播(Broadcast)四个阶段。
- Replicated database(复制的数据库):是一个内存数据库,包含整个数据树。为了可恢复,更新会被log到磁盘,并且在更新这个内存数据库之前,先序列化到磁盘。
八、ZooKeeper 角色选举
上面我们知道zookeeper集群有三种角色:leader、follower、observer
一个zookeeper有三种状态:
- looking:选举状态,当前没有leader;
- leading:leader才有的状态;
- following:follower才有的状态;
当集群新建,或者主机死机,或者主机与一半或以上的从机失去联系后,都会触发选择新的主机操作。有两种算法 fast paxos和 basic paxos,默认为 fast paxos。
- observer角色不参与投票,可以缩短选举时间。
- 每次选举都要把选举轮数加一,类似于zxid里的epoch字段,防止不同轮次的选举互相干扰。
- 每个进入looking状态的节点,最开始投票给自己,然后把投票消息发给其它机器。内容为<第几轮投票,被投节点的zxid,被投节点的编号>。
- 其他looking状态的节点收到后,首先判断票是否有效,是否有效的方法为看票的投票轮数和本地记载的投票轮数是否相等:
4.1 如果比本地投票轮数的小,丢弃。
4.2 如果比本地投票轮数的大,证明自己投票过期了,清空本地投票信息,更新投票轮数和结果为收到的内容。通知其他所有节点新的投票方案。
4.3 如果和本地投票轮数相等,按照投票的优先级比较收到的选票和自己投出去的选票。
4.3.1 如果收到的优先级大,更新自己的投票为对方发过来投票方案,把投票发出去。
4.3.2 如果收到的优先级小,则忽略该投票。
4.3.3 如果收到的优先级相等,则更新对应节点的投票。 - 每收集到一个投票后,查看已经收到的投票结果记录列表,看是否有节点能够达到一半以上的投票数。如果有达到,则终止投票,宣布选举结束,更新自身状态。然后进行发现和同步阶段。 否则继续收集投票。
fast paxos和basic paxos区别
这里fast是主动推送出,只要结果有更新,就马上同步给其他节点。其他节点可能还没把自己的票通知给所有节点,就发现自己投的票优先级低,要更新投票,然后更新再重新通知给所有节点。
basic则要每一节点都询问完,才能知道新结果,然后再去问其他节点新的选举结果。
fast比basic快的地方,是一个节点不用和每个节点都交换投票信息后,才能知道自己的票是否要更新,可减少交互次数。
九、ZooKeeper命令
运行 ./zkCli.sh进入命令行工具
1、ls查看某个节点的子节点信息,绝对路径
[zk:localhost:2181(CONNECTED)1] ls /
2、create创建一个新的znode
[zk:localhos:2181(CONNECTED)2] create /Apps "data"
3、get获取znode信息
[zk:localhost:2181(CONNECTED)3] get /Apps
4、set更新znode内容
[zk:localhost:2181(CONNECTED)4] set /Apps "new"
5、stat获取znode信息,同get
[zk:localhost:2181(CONNECTED)5] stat /Apps
6、delete删除znode,子节点不被删除
[zk:localhost:2181(CONNECTED)6] delete /Apps
7、rmr删除znode及子节点
[zk:localhost:2181(CONNECTED)7] rmr /Apps
8、ls2是ls的增强版,比ls命令多输出本节点信息
[zk:localhost:2181(CONNECTED)8] ls2 /Apps
9、listquota命令用于显示配额
[zk:localhost:2181(CONNECTED)9] listquota /Apps
10、setquota命令用于设置节点个数以及数据长度的配额
[zk:localhost:2181(CONNECTED)10] setquota -n 2 /Apps
[zk:localhost:2181(CONNECTED)11] setquota -b 10 /Apps
11、delquota命令用于删除配额
[zk:localhost:2181(CONNECTED)12] delquota -n 2
12、redo用于再次执行某个命令,配合history使用
[zk:localhost:2181(CONNECTED)13] redo id
13、addauth命令用于节点认证
[zk:localhost:2181(CONNECTED)14] addauth digest username:password
14、setAcl命令用于设置节点Acl
[zk:localhost:2181(CONNECTED)15] setAcl world:anyone:cdrwa
15、获取节点的Acl
[zk:localhost:2181(CONNECTED)16] getAcl /Apps
16、sync命令用于强制同步
[zk:localhost:2181(CONNECTED)17] sync /Apps
17、printWatchers命令用于设置和显示监视状态
[zk:localhost:2181(CONNECTED)18] printwatches on
18、connect命令用于连接其他主机
[zk:localhost:2181(CONNECTED)19] connect host:port