解决处理ServeRAID问题
 
该部分描述ServeRAID 运行过程中出现的文字提示.也包括一些重建已掉线磁盘的基本信息.
 
当用IBM ServeRAID Support CD启动时出现警告提示
 
当用IBM ServeRAID Support CD 引导启动时,出现如下警告提示:
 
You passed an undefined mode number.
Press <RETURN> to see video modes available,
<SPACE> to continue or wait 30 secs
 
按空格键继续开始IBM ServeRAID Support CD。之后,显示如下信息并开始启动CD:
 
ncompressing Linux... Ok, booting the kernel.
 
ServeRAID 控制器消息
 
该章节列出在系统启动过程中ServeRAID 可能出现的消息。
 
所有的物理驱动器都包含唯一的标识符,例如驱动器的serial number和manufacturer。在配置过程中,ServeRAID 控制器会存储这些信息。
 
下面的表格按照字母排序列出ServeRAID子系统关联信息
 
 

Message
Explanation
Action
No INT 13h device Found
尽管驱动器已经连接,但没有被BIOS识别到
不是驱动器电源线就是数据线没有连接好,检查电源和数据线的连接。
The Disk Monitoring
System has detected that
the following drive(s) are
operating outside of
normal specification. It is
advisable to immediately
back up your data and
replace your hard‐disk
drive(s) by calling your
IBM service representative.
SMART 报告失败
驱动器继续使用很可能随时出现故障,建议备份数据并且更换驱动器
Message
Explanation
Action
Following SAS device(s)
are not present or
responding: Port#n
WARNING!!!
Configuration Change(s)
detected!!! Press <Enter> to
accept the current
configuration or power off
the system and check the
drive connections.
当逻辑盘中的一个或多个驱动器在当前启动下丢失,,这个问题同时也存在于上一次启动过程,那么就会出现这条提示信息
如果你有意移除驱动器,可以按<Enter>同意此改变,否则推荐关掉电源检查驱动器连接。
A logical drive that was
connected to this port is
missing. However a
different drive is connected
to the same port: Port#n
WARNING!!!
Configuration Change(s)
detected!!! Press <Enter> to
accept the current
configuration or power off
the system and check the
drive connections.
在移除硬盘的槽位换上了不同的硬盘
如果你有意移除硬盘,可以按<Enter>同意改变,否则推荐关掉电源检查驱动器连接。
Following SAS drive(s) are
moved to different port(s)
Port#m to Port#n
当一个或多个硬盘颠倒位置插入。例如, if the
drive in port#0 is moved to
port#1.
仅仅会出现个提示信息,BIOS会将配置信息自动升级,不需要用户干涉。
BIOS is Disabled
如果<Ctrl><A>中支持将BIOS Int 13h 关闭
, 你将不会看到任何驱动器。
必须打开<Ctrl><A>—> Serial Select—>Controller configuration menu 中的INT13h support 。
主:该消息仅出现在其支持的平台。

 
一般错误
 
下面列表将描述可能遇到的一般错误和建议解决方法。
 

Problem
Suggested Solution
系统不能从SAS控制器启动
检查系统BIOS中PCI中断分配配置。确定RAID控制器具有唯一的中断号。安装操作系统前初始化逻辑盘。
某一个驱动器在逻辑盘中失败
1. 检查SAS线缆
2. 如果SAS线缆正常,更换驱动器
某个驱动器SAS ID 重复失败
更换SAS 连线
在启动过程中按完<Ctrl><A>试图配置控制器时,系统挂起
更换驱动器连线
按<Ctrl><A>没有显示菜单
显示BIOS utility 菜单需要彩色显示器
安装了RAID控制器,自检过程中BIOS标志显示不正常,或没有显示
切断电源,确认RAID控制器上的缓存是否安装正确。如果现象依然存在,联系IBM客服代表寻求帮助。
逻辑盘名称下面状态显示Degraded
如下几种情况:
 
One of the members is failed (意味IO失败)
某个驱动器缺失
用户强制在OS应用中禁用
 
逻辑盘可以在如下情况恢复到在线(online)状态:
 
按<Ctrl><A>进入ACU,给失败或缺少的盘指派一个备份盘。这样会自动开始重建的操作
插入原来缺失的盘回来,也会自动开始进行重建操作
在自检过程中出现2个degraded逻辑盘,显示如下信息:
 
“Warning!!! A configuration change
detected!!! Following Arrays have Missing
or Rebuilding or Failed Members and are
critical”.
 
该错误显示由于丢失或失败控制器不能侦测到逻辑盘的成员
       如果驱动器缺失,重新将其插入
       如果驱动器失败,替换驱动器
       也可以为degraded盘分配热备份盘
 

 
作系统问题
 
下面表格描述操作系统可能遇到的问题和解决方法
 

Problem
Suggested Solution
驱动器没有出现在设备管理器中
Windows操作系统可能没在SCSI和RIAD控制器部分而在其它设备中列出控制器
1.         在设备管理器中其它设备下查看是否列出PCI卡或RAID控制器
2.         如果是,右键点击,选择属性中的驱动选项卡
3.         根据Windows版本,选择改变驱动或升级驱动
4.         按照屏幕提示完成安装驱动。如果Windows提示是否需要验证点击仍然继续
5.         重启系统完成驱动程序安装
Problem
Suggested Solution
“No Hard Drives Found”
当用操作系统光盘安装系统时,出现如上提示信息
在安装系统时,没有在适当时机按<F6>
 
1.         用操作系统盘重新引导安装Windows
2.         但提示出现Press F6 if you need to install third party SCSI or RAID driver时,按<F6>
3.         按照之后的向导说明继续安装系统
 
如果仍然没有解决问题,检查设备连接和逻辑设备配置

 
ServeRAID Manager 问题的解决
 

Message
Explanation
Action
ServeRAID Manager程序在启动屏幕挂起
可能ServeRAID 设备使用了老版本的驱动
升级ServeRAID 设备驱动到最新版本。更多信息参看IBM ServeRAID Support CD中 ServeRAID 设备驱动安装说明
在NetWare 环境下运行ServeRAID Manager时,显示如下信息:
Unable to find load file
RAIDMAN
ServeRAID Manager 程序没有安装到SYS卷中的root目录里
重新安装ServeRAID Manager。如果正确安装完成,在SYS卷中的root目录中将会有个RAIDMAN子目录
在NetWare 环境下运行ServeRAID Manager时,显示如下信息:
-autounload is an invalid
parameter
Novell NetWare中正使用老版的Java Virtual Machine(JVM)
在Novell网站下载安装最新版本的JVM
http://developer.novell.com/ndk
/download.htm
ServeRAID Manager 程序启动失败,显示如下错误信息:
Can't find class
com.ibm.sysmgt.raidmgr
.mgtGUI.Launch
TCP/IP 主机文件没有配置本地服务器hostname
为本地服务器TCP/IP hosts文件配置hostname
1.         打开/etc/hosts文件
2.         如果TCP/IP 网络已配置,按照如下步骤:
a.        如果服务器的hostname开始行从127.0.0.1 ,从这行删除掉hostname
b.        在新一行敲入服务器的IP地址
c.        按Tab键跳到下一栏输入完整的主机名
d.        按Tab 键跳到第3栏输入服务器昵称
注:可以按照如下例子:
1.1.1.1
matrix.localdomain
matrix
1.1.1.1为服务器IP地址matrix为服务器主机名
3.         如果TCP/IP网络未配置,以127.0.0.1起始,在第3栏输入服务器名称
注:可以按照如下例子:
127.0.0.1 localhost
Matrix
Matrix为服务器名
4.         重启服务器使改变生效

 
 
从不完全的物理盘中恢复
 
在格式化物理盘时,如果格式化过程由于重启,关机,断电或其他原因中止,物理盘将变为不可修复.
按照下面操作在ServeRAID控制器中使其和物理盘进行沟通.
1.       注意ServeRAID控制器与物理磁盘连接的通道接口.
2.       在POST是按<Ctrl><A>进入,在Disk Utilities 中对磁盘进行格式化.(参考〝Using the disk utilities〞章节).
 
完成磁盘格式化之后,ServeRAID 控制器将重新识别驱动器.
 
重建掉线驱动器
 
物理磁盘标注defunct,控制器与物理驱动器之间无法通信.可能由以下几种原因造成:
l         不正确连接线缆,驱动器或控制器
l         驱动器电源缺失
l         有问题的线缆,背板,物理磁盘或控制器
 
任何情况,通信恢复后,该设备所在逻辑盘要求重建数据.ServeRAID控制器可以重建RAID 1,1E,5,5EE,6,10,50,60逻辑盘.而RAID 0不可以,因为RAID 0并非冗余阵列.如果逻辑盘仅为RAID 0,而逻辑盘被标为offline,逻辑盘包含错误数据,不能被重建.只有找到原因,纠正后才能恢复数据.
 
从掉线盘中恢复
 
如果defunct驱动器并未参与逻辑盘,联系IBM服务代表.
 
如果一物理盘在一个逻辑盘中失败,或多个物理盘在多个逻辑盘(每个逻辑盘一个物理盘)中失败,完成下面步骤:
 
1.       更换defunct状态的物理盘.ServeRAID控制器检测到插入磁盘会自动重建逻辑盘.
注:(配置了热备份驱动器)如果更换失败的物理盘,不用必须将新磁盘插入初始作为热备盘的SAS ID槽上.新插上的磁盘会自动成为热备份盘.下面是工作原理举例:
a.       初始配置了由3块盘组成的RAID 5,这三块盘的SAS ID 为0,1,2,SAS ID是3的为一块热备份盘.
b.       SAS ID为2的物理盘失败;逻辑盘进入临界状态.
c.       热备份盘SAS ID为3的自通重建到逻辑盘上.
d.       去掉SAS ID 2的磁盘,用新磁盘替换.新磁盘在SAS ID 2,会自动被加为热备盘.
 
2.       如果同步操作正在进行,等待同步完成.否则跳到第3步.
注:替换多个defunct磁盘,必须等待rebuild操作完成.
3.       检查线缆,物理盘,控制器是否安装正确.
4.       尝试热插拔重建defunct物理盘.
5.       如果热插拔重建失败,联系IBM服务代表.
 
重建热插拔驱动器
 
热插拔重建是指ServeRAID控制器检测到逻辑盘上的驱动器控制掉线后重新拔插后开始重建操作.重插物理盘,无论是新盘还是原来盘,都会使ServeRAID控制器开始重建操作.重建操作过程中,磁盘会重建,逻辑盘一直为临界状态,知道重建操作完成.
 
在IBM服务器上,存在可用热插拔硬盘时,重建自动执行,不需要替换失败盘.如果同一逻辑盘中存在多个失败的磁盘,不会执行重建任务.如果多个磁盘在多个逻辑盘中(每个逻辑盘中有一块物理磁盘)失败,控制器会在先失败的逻辑盘上开始重建.重建操作会在第一块足够容量的磁盘上进行.
 
完成如下步骤开始热插拔重建:
1.       不必完全抽出硬盘,将磁盘托架手柄轻轻拔出一些.如果需要,参考随服务器附带的移除物理磁盘方法的文档.

注意:
热插拔磁盘驱动器断电后,磁头立即停止,锁定在相应区域.盘片随之停止.该过程在断电后可能需要20秒钟.正在减速停止过程中,不要移动磁盘,否则可能会损坏磁盘驱动器.

 
2.       等待20秒钟,使磁盘完全停止转动.
3.       如果确认物理磁盘没有错误,轻轻将磁盘重新插入到服务器中.确保磁盘完全和背板连接器进行连接.
否则,用相同容量(或更大)的新磁盘代替该物理磁盘,继续重建操作.
 
注:
a.       如果多个磁盘在多个逻辑盘中(每个逻辑盘中有一块物理磁盘)失败,更换每个defunct磁盘驱动器.如果在同一逻辑盘上的多个物理磁盘失败,联系IBM的服务代表.
b.       尽管有问题的物理磁盘可能也可以重建后成为online磁盘,但仍然不建议.
 
 
恢复逻辑盘配置
 
如果copy back功能打开,在逻辑盘中替换失败磁盘ServeRAID软件将逻辑盘恢复到初始配置状态.在逻辑盘重建前,copy back 操作将数据恢复到之前区域.
 
ServeRAID Manager 或 ARCCONF 可对copy back 进行开启或关闭.默认情况,当ServeRAID控制器检测到逻辑盘中失败驱动器被替换,copy back自动启动.
注:当从之前版本升级ServeRAID软件时,copy back默认为关闭状态.
 
更多信息请参考ServeRAID Manager在线帮助;也可以参考安装和使用ARCCONF命令行程序第7章.
 
从多个失败物理盘中恢复(仅用于Windows)
 

重要:
l         不能保证一定恢复之前的数据.
l         必须让所有的物理盘都将逻辑盘恢复成okay状态.该过程不能恢复临界或已坏逻辑盘.
l         对于标记offline的逻辑盘,重复该过程.

 
ServeRAID 控制器在设计上能够允许逻辑盘中的一个物理磁盘失败,如果配置为RAID 6,允许2块物理磁盘失败.尽管不能保证逻辑盘offline后一定能恢复数据,下面步骤还是提供恢复的可能.
 
过程如下:
1.       获取ServeRAID logs
2.       检查硬件连接
3.       强制逻辑盘Okay
 
获取ServeRAID 日志
按如下步骤获取ServeRAID 日志:
1.       获取ServeRAID 日志:
注:如果逻辑盘为操作系统盘,从ServeRAID Support CD引导启动.
a.       打开ARCCONF程序(必须与ServeRAID Manager安装在同一目录下).更多信息详看第7章〝安装和使用ARCCONF命令行程序〞
b.       在提示处输入如下命令:
ARCCONF GETLOGS controller EDAD > filename
controller为控制器编号,filename为希望将log保存到哪个文件中.
 
2.       将日志发送给IBM服务代表进行分析.log提供最明显的引起失败的原因.
 
检查硬件连接
服务器关闭时,完成下面任务:
1.       重插ServeRAID 控制器.
2.       重插背板对应的线缆和磁盘.
3.       重插背板和背板中级选件电源线缆.
 
在重插过程中,检查排线是否有损坏,接口针脚是否扭曲等其他坏损.花些时间确保每个部件都连接恰当.
 
强制将逻辑盘Okay
 
用ServeRAID Manager 强制将逻辑盘设为Okay状态:
1.       在ServeRAID Manager中,右键点击掉线逻辑盘.
2.       选择强制在线选项
注:当强制在线不出现,或为灰色不可选时,说明没有将所有必须的物理盘查到控制器上,不能完成该过程
 
故障解决
 
如果继续阅览下面信息,可能对你确定配置或硬件故障有一定帮助.
 
SAS总线信号弱:信号弱可能由以下几种原因造成:
 
l         在PCI插槽上装有不恰当的ServeRAID控制器
l         线缆连接不实
l         SAS背板上的热插拔驱动器不实
l         背板中继器安装不正确
 
独立的硬件问题:可用如下技巧分析大部分硬件问题:
 
l         检查ServeRAID Manager错误代码,该代码由物理盘失败时返回命令生成.在硬件维护手册及问题解决向导中查看代码对应信息.
l         关掉服务器,重新拔插PCI ServeRAID控制器,线缆和SAS总线上的磁盘设备.
l         在BIOS自检时,回顾物理盘和通过时间,确定是否有错误.
在BIOS中,选择列出所有控制上物理盘选项.选择其中一块物理盘进行测试.将会测试该设备及全部SAS总线.如果在集成SAS控制器上发现错误,通过测试另一块物理盘确定是磁盘还是线缆问题.测试在线和掉线驱动器确定是否此时结果与ServeRAID控制器上状态一致.也可以将热插拔硬盘更换插槽位置,重新测试,确定是否结果改变.
如果问题依然,兑换SAS线缆,在物理盘上对其进行测试.如果物理盘通过测试,则之前的为坏的线缆.这种方法对于SAS通道上的独立组建故障很有用.
l         使用系统诊断测试ServeRAID 子系统.在启动时按F2进入诊断程序.如果子系统测试失败,从ServeRAID控制器上断开物理盘.再次运行诊断程序.如果通过测试,将磁盘插回再测试.如果仍然失败,请联系IBM服务代表请求更多协助
注:确保使用最新版本的诊断程序.
l         从背板上断开第一块掉线磁盘.恢复控制器到默认出厂设置.试图将配置信息从物理盘上导入.根据失败程度,该方法可能能够解决该错误.很可能所有物理盘能够回到在线状态,除了那块拔下的物理盘.
l         在IBM服务代表那里开一个case,将失败后的系统ServeRAID 日志提交给他们.