文章目录
- 1、级联模式( A->B->C)
- 1.1 以增加server2方式添加server3节点
- 1.2 设置(直接配置GTID模式)
- 1.3 测试(GTID模式的级联)
- 1.4 配置级联复制为半同步复制模式
- 1.5 测试(半同步的级联模式)
- 1.7 延时复制
- 1.8 多元复制
- 2、并行复制(优化mysql主从复制的延迟问题)
- 2.1 简介
- 2.2 配置方法
- 3、组复制之多主模式(全复制)
- 3.1 组复制介绍
- 3.2 组复制之单主模式搭建过程
- 3.3 组复制之多主模式搭建过程
- 3.3.1 环境要求
- 3.3.2 修改配置文件
- 3.3.3 server2与server3配置
- 3.4 测试组复制
- 4、慢查询
- 5、mysql路由器(读写分离)
- 5.1 mysql 路由器原理
- 5.2 部署方式
- 5.3 使用客户端进行测试
- 6、lsof 命令详解(补充内容)
- 6.1 lsof简介
- 6.2 lsof使用
- 6.3 lsof常用参数
- 6.4 lsof使用实例
1、级联模式( A->B->C)
级联模式就是数据库B同步A,数据库C同步B,以此一级一级同步
1.1 以增加server2方式添加server3节点
下面给出基本步骤(参考上一篇博客):
- 拷贝
/usr/local/mysql
目录到server3:/usr/local
下 - 增加mysql用户用于管理mysql相关
- 给server3增加mysql的数据目录 /data/mysql,并修该目录用户用户组为mysql
- 修改/etc/my.cnf内容,直接拷贝server1/2过来修改即可
- 拷贝启动脚本到/etc/init.d/mysqld,命名为mysqld
- 初始化数据库,得到初始化登陆密码
- /etc//init.d/mysqld start 启动数据库
- 本地安全登陆数据库,输入初始化登陆密码,进行数据库密码修改以及其他
- 数据库安装完成
1.2 设置(直接配置GTID模式)
注意:在配置级联模式前,首先要关闭前面的半同步模式,然后保证三台主机的数据一致(不然做同步会不成功),然后再设置级联复制模式
在server2上操作
vim /etc/my.cnf
...
log-slave-updates
...
/etc/init.d/mysqld restart
mysql> GRANT REPLICATION SLAVE ON *.* TO repl@'%' IDENTIFIED BY 'westos';
server3的操作
vim /etc/my.cnf
server-id=3
log-bin=binlog
gtid_mode=ON
enforce-gtid-consistency=ON
/etc/init.d/mysqld restart
mysql -pwestos
mysql> stop slave;
mysql> change master to
master_host='172.25.200.2',
master_user='repl',
master_password='westos',
master_auto_position=1;
mysql> start slave;
mysql> show slave status\G;
...
Slave_IO_Running: Yes
Slave_SQL_Running: Yes
基本级联模式搭建完成
1.3 测试(GTID模式的级联)
可视化插入几个字段,然后分别在server2/server3上查看是否同步成功
同步成功:
1.4 配置级联复制为半同步复制模式
半同步复制:
master:
INSTALL PLUGIN rpl_semi_sync_master SONAME 'semisync_master.so';
SET GLOBAL rpl_semi_sync_master_enabled =1;
SHOW STATUS LIKE 'Rpl_semi%';
slave:
INSTALL PLUGIN rpl_semi_sync_slave SONAME 'semisync_slave.so';
SET GLOBAL rpl_semi_sync_slave_enabled = 1;
STOP SLAVE IO_THREAD;
START SLAVE IO_THREAD;
查看状态(master)
mysql> show variables like 'rpl%';
+-------------------------------------------+------------+
| Variable_name | Value |
+-------------------------------------------+------------+
| rpl_semi_sync_master_enabled | ON |
| rpl_semi_sync_master_timeout | 10000 |
| rpl_semi_sync_master_trace_level | 32 |
| rpl_semi_sync_master_wait_for_slave_count | 1 |
| rpl_semi_sync_master_wait_no_slave | ON |
| rpl_semi_sync_master_wait_point | AFTER_SYNC |
| rpl_stop_slave_timeout | 31536000 |
+-------------------------------------------+------------+
mysql> SHOW STATUS LIKE 'Rpl%';
+--------------------------------------------+-------+
| Variable_name | Value |
+--------------------------------------------+-------+
| Rpl_semi_sync_master_clients | 1 |
| Rpl_semi_sync_master_net_avg_wait_time | 0 |
| Rpl_semi_sync_master_net_wait_time | 0 |
| Rpl_semi_sync_master_net_waits | 1 |
| Rpl_semi_sync_master_no_times | 0 |
| Rpl_semi_sync_master_no_tx | 0 |
| Rpl_semi_sync_master_status | ON |
| Rpl_semi_sync_master_timefunc_failures | 0 |
| Rpl_semi_sync_master_tx_avg_wait_time | 1127 |
| Rpl_semi_sync_master_tx_wait_time | 1127 |
| Rpl_semi_sync_master_tx_waits | 1 |
| Rpl_semi_sync_master_wait_pos_backtraverse | 0 |
| Rpl_semi_sync_master_wait_sessions | 0 |
| Rpl_semi_sync_master_yes_tx | 1 |
+--------------------------------------------+-------+
14 rows in set (0.00 sec)
查看状态(slave)
mysql> show status like 'Rpl_semi%';
+----------------------------+-------+
| Variable_name | Value |
+----------------------------+-------+
| Rpl_semi_sync_slave_status | ON |
+----------------------------+-------+
server1:做master
server2:既做master也做slave
1.5 测试(半同步的级联模式)
这个写入等待时间可以设置,设置足够长时间,就会一直等待。
重新开启server2,恢复同步(对server3测试雷同)
1.7 延时复制
- 生产环境中,如果开了延迟复制,不小心删除server1主机上的数据,如果没有延迟复制会立即同步删除,但是如果开了延迟复制,则可以停止slave, 想办法将数据导出,对数据也有一定保护作用,尤其可以用在这种级联模式中,A和B 保持同步,C 开启延时复制。
操作方法
server3:
mysql> stop slave;
mysql> change master to master_delay=30; ##表示延时30s
mysql> start slave;
mysql> show slave status\G;
*************************** 1. row ***************************
Slave_IO_State: Waiting for master to send event
Master_Host: 172.25.200.2
Master_User: repl
Master_Port: 3306
Connect_Retry: 60
Master_Log_File: binlog.000006
Read_Master_Log_Pos: 454
Relay_Log_File: server3-relay-bin.000002
Relay_Log_Pos: 405
Relay_Master_Log_File: binlog.000006
Slave_IO_Running: Yes
Slave_SQL_Running: Yes
...
SQL_Delay: 30
...
这样在同步复制时,server3会延时30s再进行。
1.8 多元复制
当数据库很庞大时,可以仅仅复制某个库,比如server2复制westos数据库,server3复制linux数据库。
具体的配置可以参照官网进行设置(https://dev.mysql.com/doc/refman/5.7/en/replication-multi-source.html)
2、并行复制(优化mysql主从复制的延迟问题)
原理请参考此篇文章并行复制原理及优化
2.1 简介
为了兼容MySQL 5.6基于库的并行复制,5.7引入了新的变量slave-parallel-type
- 其可以配置的值有:
DATABASE:默认值,基于库的并行复制方式
LOGICAL_CLOCK:基于组提交的并行复制方式 - 若将slave_parallel_workers设置为0,则MySQL 5.7退化为原单线程复制,但将slave_parallel_workers设置为1,则SQL线程功能转化为coordinator线程,但是只有1个worker线程进行回放,也是单线程复制。然而,这两种性能却又有 一些的区别,因为多了一次coordinator线程的转发,因此slave_parallel_workers=1的性能反而比0还要差
2.2 配置方法
对slave(server2)操作
vim /etc/my.cnf
slave-parallel-type=LOGICAL_CLOCK # 打开基于组的并行方式
slave-parallel-workers=16 # 并行回放线程数,官方给了16个比较合适
master_info_repository=TABLE # 将参数master_info_repostitory设置为TABLE,这样性能可以有50%~80%的提升
relay_log_info_repository=TABLE
relay_log_recovery=ON
/etc/init.d/mysqld/ restart
3、组复制之多主模式(全复制)
3.1 组复制介绍
组复制协议(时序)图
组复制模式
容错:
3.2 组复制之单主模式搭建过程
3.3 组复制之多主模式搭建过程
3.3.1 环境要求
将server1/2/3中的mysql服务停止,/data/mysql
下的内容全部删除,然后准备重新初始化数据库(这里不再赘述,可参考上一篇博客)
参考步骤:
/etc/init.d/mysqld stop
rm -fr /data/mysql/*
3.3.2 修改配置文件
vim /etc/my.cnf
server1上的所有配置
[mysqld]
basedir=/usr/local/mysql
datadir=/data/mysql
socket=/data/mysql/mysql.sock
disabled_storage_engines="MyISAM,BLACKHOLE,FEDERATED,ARCHIVE,MEMORY"
##禁用其他引擎,默认使用innodb
server_id=1
gtid_mode=ON
enforce_gtid_consistency=ON
master_info_repository=TABLE
relay_log_info_repository=TABLE ##基本信息配置,gtid模式等
binlog_checksum=NONE
log_slave_updates=ON
log_bin=binlog
binlog_format=ROW
plugin_load_add='group_replication.so'
## 添加单主模式插件,也可以在数据库中安装
transaction_write_set_extraction=XXHASH64
group_replication_group_name="aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa" ## 相当于uuid,可以通过uuidgen来随机获取
group_replication_start_on_boot=off
group_replication_local_address= "server1:33061" ##本机组成员
group_replication_group_seeds= "server1:33061,server2:33061,server3:33061"
## 其他组成员
group_replication_bootstrap_group=off
group_replication_ip_whitelist="172.25.200.0/24,127.0.0.1/8"
##添加白名单,增加安全性
group_replication_single_primary_mode=OFF ## 打开多主模式
group_replication_enforce_update_everywhere_checks=ON
编辑配置文件,并初始化数据库。
mysql> set sql_log_bin=0;
mysql> create user rpl_user@'%' identified by 'westos';
mysql> grant replication slave on *.* to rpl_user@'%';
mysql> flush privileges;
mysql> set sql_log_bin=1;
mysql> change master to master_user='rpl_user',master_password='westos' for channel 'group_replication_recovery';
#安装group_replication_recovery插件
mysql> show plugins; ## 看到group_replication插件表示安装成功
| group_replication | ACTIVE | GROUP REPLICATION | group_replication.so | GPL |
mysql> set global group_replication_bootstrap_group=ON;
mysql> start group_replication;
mysql> set global group_replication_bootstrap_group=OFF;
mysql> select * from performance_schema.replication_group_members;
3.3.3 server2与server3配置
与server1类似:
[root@server2 ~]# cat /etc/my.cnf
[mysqld]
basedir=/usr/local/mysql
datadir=/data/mysql
socket=/data/mysql/mysql.sock
# datadir=/var/lib/mysql
# socket=/var/lib/mysql/mysql.sock
# Disabling symbolic-links is recommended to prevent assorted security risks
symbolic-links=0
# Settings user and group are ignored when systemd is used.
# If you need to run mysqld under a different user or group,
# customize your systemd unit file for mariadb according to the
# instructions in http://fedoraproject.org/wiki/Systemd
disabled_storage_engines="MyISAM,BLACKHOLE,FEDERATED,ARCHIVE,MEMORY"
server-id=2 ## 这里改为2/3
gtid_mode=ON
enforce-gtid-consistency=ON
master_info_repository=TABLE
relay_log_info_repository=TABLE
binlog_checksum=NONE
log_slave_updates=ON
log_bin=binlog
binlog_format=ROW
plugin_load_add='group_replication.so'
transaction_write_set_extraction=XXHASH64
group_replication_group_name="aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa"
group_replication_start_on_boot=off
group_replication_local_address="172.25.200.2:33061"
##这里改为server2/3的ip地址
group_replication_group_seeds="172.25.200.1:33061,172.25.200.2:33061,172.25.200.3:33061"
group_replication_bootstrap_group=off
group_replication_ip_whitelist="172.25.200.0/24,127.0.0.1/8"
group_replication_single_primary_mode=OFF
group_replication_enforce_update_everywhere_checks=ON
...
最后开启组复制(不再需要引导,引导在server1上已经做了)
进入目录查看错误日志:
使用group_replication_allow_local_disjoint_gtids_join参数
mysql> set global group_replication_allow_local_disjoint_gtids_join=ON ##直接设置全局也行。
开启成功
server1/2/3组复制全部开启。
3.4 测试组复制
server1上:
mysql> CREATE DATABASE test;
mysql> use test;
mysql> CREATE TABLE t1 (c1 INT PRIMARY KEY,c2 TEXT NOT NULL);
mysql> INSERT INTO t1 VALUES (1,'hello');
mysql> SELECT * FROM t1;
+----+-------+
| c1 | c2 |
+----+-------+
| 1 | hello |
+----+-------+
在server2/3上查看同步成功。
4、慢查询
生产环境中一定要打开慢查询,不然有些sql语句会对数据库产生影响.
set global slow_query_log=ON;
show variables like "long%";
set long_query_time=5;
show status like 'slow%';
5、mysql路由器(读写分离)
5.1 mysql 路由器原理
5.2 部署方式
1.安装:
# rpm -ivh mysql-router-community-8.0.21-1.el7.x86_64.rpm
mysql原装的路由
2.配置:(读写分离)
# vim /etc/mysqlrouter/mysqlrouter.conf
[routing:ro] ##进行只读时候选择7001端口
bind_address = 0.0.0.0
bind_port = 7001
destinations = 172.25.200.1:3306,172.25.200.2:3306,172.25.200.3:3306
routing_strategy = round-robin ##采用的负载均衡的模式
[routing:rw] ##进行读写的时候采用7002端口
bind_address = 0.0.0.0
bind_port = 7002
destinations = 172.25.200.1:3306,172.25.200.2:3306,172.25.200.3:3306
routing_strategy = first-available ##第一可用模式,1不可用了才往2里面写
3.不仅仅可以在多主模式使用,主从复制也可以使用读写分离
官方路由器下载地址:https://dev.mysql.com/get/Downloads/MySQL-Router/mysql-router-community-8.0.25-1.el7.x86_64.rpm
检查版本是否兼容
下载红帽企业7版本
[root@server4 ~]# rpm -ivh mysql-router-community-8.0.25-1.el7.x86_64.rpm
[root@server4 ~]# vim /etc/mysqlrouter/mysqlrouter.conf
[root@server4 ~]# rpm -ql mysql-router-community
[root@server4 ~]# systemctl start mysqlrouter.service
[root@server4 ~]# netstat -antlp
##查看7001,7002 端口
5.3 使用客户端进行测试
server1:
6、lsof 命令详解(补充内容)
6.1 lsof简介
lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接 和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因 为应用程序打开文件的描述符列表提供了大量关于这个应用程序本身的信息,因此通过lsof工具能够查看这个列表对系统监测以及排错将是很有帮助的。
6.2 lsof使用
lsof输出信息含义
在终端下输入lsof即可显示系统打开的文件,因为 lsof 需要访问核心内存和各种文件,所以必须以 root 用户的身份运行它才能够充分地发挥其功能。
#lsof
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
init 1 root cwd DIR 3,3 1024 2 /
init 1 root rtd DIR 3,3 1024 2 /
init 1 root txt REG 3,3 38432 1763452 /sbin/init
init 1 root mem REG 3,3 106114 1091620 /lib/libdl-2.6.so
init 1 root mem REG 3,3 7560696 1091614 /lib/libc-2.6.so
init 1 root mem REG 3,3 79460 1091669 /lib/libselinux.so.1
init 1 root mem REG 3,3 223280 1091668 /lib/libsepol.so.1
init 1 root mem REG 3,3 564136 1091607 /lib/ld-2.6.so
init 1 root 10u FIFO 0,15 1309 /dev/initctl
每行显示一个打开的文件,若不指定条件默认将显示所有进程打开的所有文件。lsof输出各列信息的意义如下:
COMMAND:进程的名称
PID:进程标识符
USER:进程所有者
FD:文件描述符,应用程序通过文件描述符识别该文件。如cwd、txt等
TYPE:文件类型,如DIR、REG等
DEVICE:指定磁盘的名称
SIZE:文件的大小
NODE:索引节点(文件在磁盘上的标识)
NAME:打开文件的确切名称
其中FD 列中的文件描述符cwd 值表示应用程序的当前工作目录,这是该应用程序启动的目录,除非它本身对这个目录进行更改。txt 类型的文件是程序代码,如应用程序二进制文件本身或共享库,如上列表中显示的 /sbin/init 程序。其次数值表示应用程序的文件描述符,这是打开该文件时返回的一个整数。如上的最后一行文件/dev/initctl,其文件描述符为 10。u 表示该文件被打开并处于读取/写入模式,而不是只读® 或只写 (w) 模式。同时还有大写 的W 表示该应用程序具有对整个文件的写锁。该文件描述符用于确保每次只能打开一个应用程序实例。初始打开每个应用程序时,都具有三个文件描述符,0、1、2, 分别表示标准输入、输出和错误流。所以大多数应用程序所打开的文件的 FD 都是从 3 开始。
与 FD 列相比,Type 列则比较直观。文件和目录分别称为 REG 和 DIR(在 Solaris 中,称为 VREG 和 VDIR)。而CHR 和 BLK,分别表示字符和块设备; 或者 UNIX、FIFO 和 IPv4,分别表示 UNIX 域套接字、先进先出 (FIFO) 队列和网际协议 (IP) 套接字。
6.3 lsof常用参数
lsof 常见的用法是查找应用程序打开的文件的名称和数目。可用于查找出某个特定应用程序将日志数据记录到何处,或者正在跟踪某个问题。
例如,linux限制了进程能够打开文件的数目。通常这个数值很大,所以不会产生问题,并且在需要时,应用程序可以请求更大的值(直到某
个上限)。如果你怀疑应用程序耗尽了文件描述符,那么可以使用 lsof 统计打开的文件数目,以进行验证。lsof语法格式是:
lsof [options] filename
常用的参数列表:
lsof filename 显示打开指定文件的所有进程
lsof -a 表示两个参数都必须满足时才显示结果
lsof -c string 显示COMMAND列中包含指定字符的进程所有打开的文件
lsof -u username 显示所属user进程打开的文件
lsof -g gid 显示归属gid的进程情况
lsof +d /DIR/ 显示目录下被进程打开的文件
lsof +D /DIR/ 同上,但是会搜索目录下的所有目录,时间相对较长
lsof -d FD 显示指定文件描述符的进程
lsof -n 不将IP转换为hostname,缺省是不加上-n参数
lsof -i 用以显示符合条件的进程情况
lsof -i[46] [protocol][@hostname|hostaddr][:service|port]
46 --> IPv4 or IPv6
protocol --> TCP or UDP
hostname --> Internet host name
hostaddr --> IPv4地址
service --> /etc/service中的 service name (可以不只一个)
port --> 端口号 (可以不只一个)
lsof +L/-L 打开或关闭文件的连结数计算,当+L没有指定时,所有的连结数都会显示(默认);若+L后指定数字,则只要连结数小于该数字的信息会显示;连结数会显示在NLINK列。
例如:+L1将显示没有unlinked的文件信息;+aL1,则显示指定文件系统所有unlinked的文件信息。-L 默认参数,其后不能跟数字,将不显示连结数信息lsof +L1
6.4 lsof使用实例
查看22端口现在运行的情况
# lsof -i :22
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
sshd 1409 root 3u IPv6 5678 TCP *:ssh (LISTEN)
查看所属root用户进程所打开的文件类型为txt的文件
# lsof -a -u root -d txt
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
init 1 root txt REG 3,3 38432 1763452 /sbin/init
mingetty 1632 root txt REG 3,3 14366 1763337 /sbin/mingetty
mingetty 1633 root txt REG 3,3 14366 1763337 /sbin/mingetty
mingetty 1634 root txt REG 3,3 14366 1763337 /sbin/mingetty
mingetty 1635 root txt REG 3,3 14366 1763337 /sbin/mingetty
mingetty 1636 root txt REG 3,3 14366 1763337 /sbin/mingetty
mingetty 1637 root txt REG 3,3 14366 1763337 /sbin/mingetty
kdm 1638 root txt REG 3,3 132548 1428194 /usr/bin/kdm
X 1670 root txt REG 3,3 1716396 1428336 /usr/bin/Xorg
kdm 1671 root txt REG 3,3 132548 1428194 /usr/bin/kdm
startkde 2427 root txt REG 3,3 645408 1544195 /bin/bash
查找谁在使用文件系统
# lsof /GTES11/
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
bash 4208 root cwd DIR 3,1 4096 2 /GTES11/
vim 4230 root cwd DIR 3,1 4096 2 /GTES11/
在这个示例中,用户root正在其/GTES11目录中进行一些操作。一个 bash是实例正在运行,并且它当前的目录为/GTES11,另一个则显示的是vim正在编辑/GTES11下的文件。要成功地卸载/GTES11,应该在通知用户以确保情况正常之后,中止这些进程。 这个示例说明了应用程序的当前工作目录非常重要,因为它仍保持着文件资源,并且可以防止文件系统被卸载。这就是为什么大部分守护进程(后台进程)将它们的目录更改为根目录、或服务特定的目录(如 sendmail 示例中的 /var/spool/mqueue)的原因,以避免该守护进程阻止卸载不相关的文件系统。
搜索打开的网络连接
如果想搜索IP地址为10.645.64.23的远程连接主机的所有网络连接,可以执行如下命令,该命令可以打开系统中该远程知己所有打开的套接字。:
/usr/sbin/lsof –i@10.65.64.23
寻找本地断开的打开文件
用户经常遇到这种情况,当一个进程正在向一个文件写数据时,该文件的目录可能被移动。这就产生了一个非常大的问题。例如,用户可能发现正在向/data写数据,但是却看不到文件增大,LSOF这个工具可以找到到这样的错误
/usr/sbin/lsof –a +L1 /data
搜索被程序打开的所有文件及打开的文件相关联进程
如果想知道执行PID号为637的sendmail命令打开的所有文件、设备、库及套接字等,可以执行
lsof -p 637
c 显示出以字母 c开头进程现在打开的文件
例:显示以init进程现在打开的文件
# lsof -c init
COMMAND PID USER FD TYPE DEVICE SIZE/OFF INODE NAME
init 1 root cwd VDIR 4095,365376 8192 2 /
init 1 root txt VREG 4095,365376 286720 463 /sbin/init
login name(登入名称)或UID所正在打开文件。
# lsof -u loginname
恢复删除的文件
当Linux计算机受到入侵时,常见的情况是日志文件被删除,以掩盖攻击者的踪迹。管理错误也可能导致意外删除重要的文件,比如在清理旧日志时,意外地删除了数据库的活动事务日志。有时可以通过lsof来恢复这些文件。
当进程打开了某个文件时,只要该进程保持打开该文件,即使将其删除,它依然存在于磁盘中。这意味着,进程并不知道文件已经被删除,它仍然可以向打开该文件 时提供给它的文件描述符进行读取和写入。除了该进程之外,这个文件是不可见的,因为已经删除了其相应的目录索引节点。
在/proc 目录下,其中包含了反映内核和进程树的各种文件。/proc目录挂载的是在内存中所映射的一块区域,所以这些文件和目录并不存在于磁盘中,因此当我们对这 些文件进行读取和写入时,实际上是在从内存中获取相关信息。大多数与 lsof 相关的信息都存储于以进程的 PID 命名的目录中,即 /proc/1234 中包含的是 PID 为 1234 的进程的信息。每个进程目录中存在着各种文件,它们可以使得应用程序简单地了解进程的内存空间、文件描述符列表、指向磁盘上的文件的符号链接和其他系统信 息。lsof 程序使用该信息和其他关于内核内部状态的信息来产生其输出。所以lsof 可以显示进程的文件描述符和相关的文件名等信息。也就是我们通过访问进程的文件描述符可以找到该文件的相关信息。
当系统中的某个文件被意外地删除了,只要这个时候系统中还有进程正在访问该文件,那么我们就可以通过lsof从/proc目录下恢复该文件的内容。 假如由于误操作将/var/log/messages文件删除掉了,那么这时要将/var/log/messages文件恢复的方法如下:
首先使用lsof来查看当前是否有进程打开/var/logmessages文件,如下:
# lsof |grep /var/log/messages
syslogd 1283 root 2w REG 3,3 5381017 1773647 /var/log/messages (deleted)
从上面的信息可以看到 PID 1283(syslogd)打开文件的文件描述符为 2。同时还可以看到/var/log/messages已经标记被删除了。因此我们可以在 /proc/1283/fd/2 (fd下的每个以数字命名的文件表示进程对应的文件描述符)中查看相应的信息,如下:
# head -n 10 /proc/1283/fd/2
Aug 4 13:50:15 holmes86 syslogd 1.4.1: restart.
Aug 4 13:50:15 holmes86 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Aug 4 13:50:15 holmes86 kernel: Linux version 2.6.22.1-8 (root@everestbuilder.linux-ren.org ) (gcc version 4.2.0) #1 SMP Wed Jul 18 11:18:32 EDT 2007
Aug 4 13:50:15 holmes86 kernel: BIOS-provided physical RAM map:
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000000000 - 000000000009f000 (usable)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000000009f000 - 00000000000a0000 (reserved)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000100000 - 000000001f7d3800 (usable)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000001f7d3800 - 0000000020000000 (reserved)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000e0000000 - 00000000f0007000 (reserved)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000f0008000 - 00000000f000c000 (reserved)
从上面的信息可以看出,查看 /proc/8663/fd/15 就可以得到所要恢复的数据。如果可以通过文件描述符查看相应的数据,那么就可以使用 I/O 重定向将其复制到文件中,如:
cat /proc/1283/fd/2 > /var/log/messages
对于许多应用程序,尤其是日志文件和数据库,这种恢复删除文件的方法非常有用。
在 Solaris 中查找删除的文件
# lsof -a -p 8663 -d ^txt
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
httpd 8663 nobody cwd VDIR 136,8 1024 2 /
httpd 8663 nobody 0r VCHR 13,2 6815752 /devices/pseudo/mm@0:null
httpd 8663 nobody 1w VCHR 13,2 6815752 /devices/pseudo/mm@0:null
httpd 8663 nobody 2w VREG 136,8 185 145465 / (/dev/dsk/c0t0d0s0)
httpd 8663 nobody 4r DOOR 0t0 58 /var/run/name_service_door
(door to nscd[81]) (FA:->0x30002b156c0)
httpd 8663 nobody 15w VREG 136,8 185 145465 / (/dev/dsk/c0t0d0s0)
httpd 8663 nobody 16u IPv4 0x300046d27c0 0t0 TCP *:80 (LISTEN)
httpd 8663 nobody 17w VREG 136,8 0 145466 /var/apache/logs/access_log
httpd 8663 nobody 18w VREG 281,3 0 9518013 /var/run (swap)
使用 -a 和 -d 参数对输出进行筛选,以排除代码程序段,"^"是取反的意思。Name 列显示出,其中的两个文件(FD 2 和 15)使用磁盘名代替了文件名,并且它们的类型为 VREG(常规文件)。在 Solaris 中,删除的文件将显示文件所在的磁盘的名称。通过这个线索,就可以知道该 FD 指向一个删除的文件。实际上,查看 /proc/8663/fd/15 就可以得到所要查找的数据。