云平台是个好东西,MySQL-MMM 的典型配置是需要五台机器,一台作为MMM admin,两台master,两台slave。一下子找五台机器真不容易,何况还要安装同样的操作系统。

而有了cloud,简单几步就有了完备的实验环境:四台数据库服务器和一台管理服务器(Memory:8G,CPU:2G,Disk:128G,64bit RHEL6)。在此,向为付出辛劳搭建云平台的同事们表示由衷的感谢:-)

下面言归正传,开始全新的MySQL mmm之旅。

下面要配置的MySQL Cluster环境包含四台数据库服务器和一台管理服务器,如下:

配置完成后,使用下面的虚拟IP访问MySQL Cluster

1. 安装MySQL

通过yum命令直接安装了mysql5.1.52。

2. 修改配置文件/etc/my.cnf

要将添加的内容放在配置文件的[mysqld]部分,如下:

注意:

如果没有修改权限和所有者,重启服务时就会在错误日志中出现找不到mysql-bin.log或者mysql-bin.log.index的错误(/usr/libexec/mysqld: File ‘/var/log/mysql/mysql-bin.log.index’ not found (Errcode: 13))。

3. 重新启动mysql服务

在完成了对my.cnf的修改后,通过 service mysqld restart 重新启动mysql服务。在正确启动后,可以通过如下方式检查配置是否正确:

1)登录mysql,执行show master status,看是否有如下输出:

2)到/var/log/mysql目录下,看是否产生了类似mysql-bin.000001和mysql-bin.log.index的文件。

使用mysql-mmm时一共需要三个用户: replication、mmm_agent和mmm_monitor(管理服务器上用来监控cluster状态的用户,所以可以限定只能从管理服务器登录)。使用下面三条命令新建这三个用户并分配相应的权限:

1. 从主数据库服务器导出当前数据库内容

注意保留上述信息,后面还会用到。另外,不要结束当前mysql控制台,重新打开一个窗口,导出数据库。

释放锁

2. 将导出的sql文件导入到其他几台数据库服务器上。首先通过scp复制过去:

在其他几台服务其上导入改SQL文件:

3. 启动从数据库SLAVE进程。

4. 将db02作为master,db01作为slave,重复1-3。

在管理服务器和数据库服务器上分别要运行mysql-mmm monitor和agent程序。下面分别安装:

1. 安装监控程序

在管理服务器(192.168.84.174)上,执行下面命令:

与monitor依赖的所有文件也会随之安装,但是有一个例外perl-Time-HiRes,所以还需要执行下面的命令:

2. 安装代理程序

在数据库服务器上执行下面的命令:

1. 编辑mmm_common.conf

完成安装后,所有的配置文件都放到了/etc/mysql-mmm/下面。管理服务器和数据库服务器上都要包含一个共同的文件mmm_common.conf,内容如下:

可以在db1上编辑该文件后,通过scp命令分别复制到monitor、db2、db3和db4上。

2. 编辑 mmm_agent.conf。

在数据库服务器上,还有一个mmm_agent.conf需要修改,其内容是:

最后一行的db1,在不同的数据库服务器上要分别改为db2、db3和db4,否则代理就会无法启动。

3. 编辑 mmm_mon.confg。

在管理服务器上,修改mmm_mon.conf文件,修改后内容为:

1. 在数据库服务器上启动代理程序

2. 在管理服务器上启动监控程序

启动后,稍等几秒,可以通过mmm_control程序查看状态:

1. 监控程序服务器无法启动

在管理服务器上,一切都完成后,通过mmm_control查看状态,得到下面的错误信息:ERROR: Can’t connect to monitor daemon! 通过编辑/etc/mysql-mmm/mmm_mon.conf文件将debug 0改为debug 1,打开监控程序的debug状态。重新启动监控程序(service mysql-mmm-monitor restart),就会看到详细的错误信息,找不到Perl Time HiRes库。执行yum -y install perl-Time-HiRes*就可以解决。

2. 防火墙问题导致Warning: agent on host db1 is not reachable.

控制台程序正确启动后,再次执行mmm_control show,却看到下面的输出:

再次打开debug,发现了下面的错误信息:

通过telnet 192.168.85.167 9989下面检查网络连接,得到了No route to host的错误信息。登录db1,通过setup程序里的Firewall configuration关闭Firewall(这不是一个好主意)。同样,关闭db2、db3和db4上的防火墙,再次重启监控程序,一切回到正常状态!