软件升级是否造成EMMC坏块

转载

代码工匠传奇 2024-12-28 19:36:34

文章标签 软件升级是否造成EMMC坏块运维数据库操作系统归档日志 文章分类 机器学习人工智能

问题来了

悲剧出现

一个潜在的客户发现访问256号文件上的数据时报错，256号文件无法被访问。

软件升级是否造成EMMC坏块_运维

进一步检查因为文件被offline，需要做recover。

软件升级是否造成EMMC坏块_软件升级是否造成EMMC坏块_02

并且该文件无法再online起来,原因是缺少归档日志，无法做recover。

于是向小y求救。小y心想，无非是两种情况

1）是不是归档日志备份到磁带上了

2）该归档日志被删除了

如果是第一种情况，那么就简单了，只需要从磁带上恢复回来即可！

如果是第二种情况，那就糟糕了，可能要丢数据了！

没关系，我们不惹事，事来了我们也不怕。

我们先来看下客户online数据文件的操作过程：
1.1 文件online
256号文件的online操作,显然oracle会提示该文件需要做介质恢复即media recovery。因为文件在offline的时候（不管什么原因）不会把该文件所对应的脏块刷到磁盘中。

软件升级是否造成EMMC坏块_数据库_03

1.2 Recover 数据文件
于是客户做了recover datafile 256的操作，并输入AUTO,但是数据库提示找不到序列号为14389的日志文件

软件升级是否造成EMMC坏块_运维_04

1.3 查看报错信息
操作系统上检查，该日志文件也不存在

软件升级是否造成EMMC坏块_归档日志_05

1.4 归档日志去哪了

是不是备份到磁带上以后，在文件系统上被删除了呢？

检查rman的备份情况，发现节点1所需要的归档日志根本没有任何备份的记录！

这下悲催了！256号文件online所需要的的归档日志已经被删除!数据可能要丢失了！

软件升级是否造成EMMC坏块_运维_06

Part 2

事故时如何发生的

一个小变更怎么会导致这样的状况

经了解，这是一个IBM AIX上的10g RAC环境，数据文件采用裸设备。

客户最近刚为RAC做了一次表空间加数据文件的“小”变更！

那么文件被offline，以及归档日志找不到了，这两个问题的出现和这次变更有直接的关系么？给表空间加个数据文件，这样的变更也会导致数据丢失么？

也许你会觉得不可思议，不过小y基本已经猜到了过程。不同的地方总在上演着类似的悲剧。

到这里，建议读者朋友们可以先停一下，思考一下变更和这两个问题的关联！以及思考一下，如果是你，你接下来会协助客户怎么继续处理呢？

Part 3

剧情重现

为什么文件被offline&归档日志没了？

其实很简单，我们直接来看变更过程和问题出现的整个过程:

3.1 变更“成功”
1月4日11:50分左右，客户发起了变更。在RAC第二个节点为某个表空间添加了两个数据文件，并且添加成功。Alert日志显示Completed。变更“成功”

软件升级是否造成EMMC坏块_操作系统_07

3.2 真的成功了么？

但是变更真的成功了么？变更做的利索么？

15:07分，节点1 在做checkpoint的时候，需要更新每个数据文件头的SCN号，但是由于新加的裸设备的操作系统权限不对，出现IO报错。显然，这是一个典型的RAC忘记修改一个节点权限的问题。这么多ORA-报错，如果这个时候发现并处理，那么一切还来得及！只是..没有可是了…

软件升级是否造成EMMC坏块_归档日志_08

3.3 数据文件强制offline
15:07分，节点1由于裸设备的权限问题，checkpoint无法写文件头的SCN，因此新加入的两个数据文件被强制offline. 这么多ORA-报错，如果这个时候发现并处理，那么一切还来得及！只是..没有可是了…

软件升级是否造成EMMC坏块_操作系统_09

3.4 发现问题
过了N个小时，当节点1访问这两个文件中的数据开始报错时，客户开始意识到问题的严重性了！从视图v$recover_file中可以看到，file_id为256和257的两个文件处于offline状态。

软件升级是否造成EMMC坏块_操作系统_10

发现裸设备权限忘记修改的问题后，客户修改了节点1的裸设备的权限并且执行alter database datafile ‘/dev/xxx’ online数据文件时，提示需要做recover。

检查发现节点1文件被offline期间的的归档日志在文件系统已经被删除，rman还没来得及备份，再也无法恢复！

软件升级是否造成EMMC坏块_运维_11

那么是什么原因导致归档日志被删除了呢？

还记得我们在文章一开始“前言”部分的下面这段话么？

你的系统中是否还存在着类似下面这样一个处理逻辑的脚本呢？

为了避免归档日志来不及备份到磁带从而将归档文件系统撑满继而导致数据库hang，很多客户的系统中往往存在这样的一个脚本，当归档文件系统使用率达到60%的时候，启动脚本备份日志到带库，当归档日志使用率超过90%，删除归档日志，并且发出报警信息，提示归档日志被删除，需要尽快进行一次全备！

看上去这么做无可厚非啊，有问题么？

这么做到底有没有问题呢？

没错，客户的系统中就存在着这么一个脚本！

由于备份到磁带不正常，导致归档日志文件系统使用率达到阀值，继而触发了脚本删除归档日志的操作！再加上变更时忘记修改一个节点裸设备权限的“巧合”，导致了悲剧的发生！

到这里，你是否还觉得为了避免数据库hang而删除归档日志，事后再发起全备的做法是一个安全的做法呢？答案显然是否定的！小y相信，90%以上的DBA在删除归档日志的时候是不会去查看v$recover_file中是否存在需要恢复的文件的！

Part 4

还有救么？

怎么解决？

这种情况下，有办法把数据文件online起来么？（当然也可以用抽取软件直接抽取数据）

小y这么问，自然是有办法，而且方法很简单（不到5步）。

用 bbed将被offline文件的文件头的SCN改到和其他数据文件SCN一致即可，做起来也就几分钟，大家下来不防可以自己试一下。需要说明的是，这不过是一种骗过数据库一致性检测的方法，丢失了日志文件，数据丢失是不可避免的！

使用bbed修改数据文件头SCN时，唯一要小心的是修改时注意不同平台字节序的问题，linux平台是小字节序，高低位是相反的。

这里小y以自己环境的19号文件被offline后并且online需要的归档日志已经被删除的情况为例，来说明处理的过程。

4.1 检查SCN
检查v$datafile_header, 19号文件状态是offline,SCN和其他文件不一样

软件升级是否造成EMMC坏块_数据库_12

丢失日志的情况下，要想把文件online起来，只能骗过数据库，我们只要把19号数据文件的文件头上的SCN改成和其他文件比如17/18号文件一样就可以。
4.2 确定SCN
SCN号存在每个文件文件头（块号是1）的kcvfhckp.kcvcpscn这个结构当中，蓝色代表输入的命令，如下所示，红色部分即offset 484往后的4个字节表示SCNBASE，用16进制表示，我们将其用计算器转变为 10进制后，得到的数就是上图v$datafile_header的SCN。

软件升级是否造成EMMC坏块_运维_13