1.故障表现
  服务器var 目录下文件全部只读,系统服务出现异常,某些服务无法启动。
2.排查原因
  var目录挂载点受损
3.处理过程
  a.将服务器服务停掉,重启试图修复文件系统。尝试多次无果。
  b.怀疑硬盘故障。关机将硬盘外挂工具检测。服务器两块磁盘做的镜像。(发现在普通PC无法挂载硬盘,是因为有RAID信息,工程师将RAID 信息删除之后,正常挂载检测发现有一块硬盘出现坏道,之后更坏新的硬盘。)
  c.更换新的硬盘之后系统始终无法启动,(kernel panic not syscing : fatal exeption )这个问题折腾了很久。最终发现是(内核不支持hdlm)内核不支持。将内核更改后正常启动。

presto单机故障 pre-collision system,故障_无法启动


  d.服务器启动之后配置网络(服务器启动时不要接网线、光纤由于用户有gps 接上gpfs 不然系统会卡在gpfs大概四五十分钟),将原来的网络配置修改(最好在配置文件下修改并将mac注释掉,不然会出现冲突有丢包等现象),配置好之后启动发现奇怪的现象:服务器到网关正常可以ping通,但是到同网段的服务器只有个别是通的。

   d.1 问题解决 :仔细查看bound 网卡 发现,网卡绑定的有一个网卡没有连接线重新配置网卡绑定之后正常。

  e.服务器网络正常之后,想着就好了。首先查看dev下是否有硬件,判断是否光纤接错等。发现gpfs挂载出现异常,gpfs启动正常,但是无法挂载。

   f.起初怀疑是gpfs配置问题。最后发现是内核改变之后内核线的模块缺失

    f1.编译安装完成之后挂载正常。

 

过程反思:
1.发现有坏盘是判断坏盘那一块(拔掉一块看看系统是否正常等操作),不要急于全部拆除。
2.当我们在拆RAID时,想上面的情况我们就只拆一个盘,这样保留一个正常的信息。
3.过程中我们使用软件做硬盘克隆和dd克隆。底层对比发现,磁盘dd做的没有RAID信息。

4.问题处理过程目标和思路一定要明确。