机房网络故障排查经常会用到测光工具、光纤清理工具,这些工具是IDC机房网络排查故障的主要工具;
1.机房常见测光工具:光源、光功率计、打光笔;
2.机房常用的光纤清理工具有:MPO接口光纤清洁笔、LC接口光纤清洁笔、卡带式光纤清洁器;
1、光源和光功率计
光源是一种发特定波长的光的仪器,用于测试光纤的衰耗情况,通常连接一根尾纤,将需要测试的光纤用法兰相连,在被测光纤的另一头用光功率计测试接收功率,接收功率与发光功率之差就是光纤的衰耗情况。
光源可发三种波长的光:850nm、1310nm,1550nm波长;根据需要按λ键可以选择相应的波长;光源的发光功率通常为-6.00dbm(dbm为功率单位)。
光功率计:光功率计是一种测试特定波长光功率的仪器,通常连接一根尾纤,将需要测试的光纤用法兰相连,光功率计同样需要选择特定的波长,包含:850nm,1310nm,1510nm,1550nm波长;根据需要按λ键可以选择相应的波长;dm/dbm需要选择到dbm来测试收光。
光功率计/光源使用方法:开机>λ键调试波长(多模850 单模1310、1550)>用FC头的尾纤连接光功率计的接口,确保FC头的凸起部分插入U型槽,再拧紧螺纹,>如测尾纤收发光时需要法兰连接;如测模块收发光时不需要法兰,只收把LC尾纤插入模块发光TX口就行;
光源和光功率计的区别:光源是产生光、发射光的设备,而光功率计是用来测量光功率的仪器。
1)、手头没有光功率计时候:多模模块是可以通过肉眼看见模块接口有红光;单模模块可以通过手机相机看模块接口有红光;如果模块不发光大概率就是模块故障;常用光功率计测模块、尾纤收发光;
2)、光模块的光衰值一般发光TX值在-5~4db之间、收光RX值在-10~4db之间;
3)、光功率计常见测LC接口的单、多模模块和单、多模尾纤,不能测MPO接口尾纤和模块;
2、打光笔
打光笔(又称红光笔,光纤测试笔)光纤接到红光笔或光源上,既可以测试光纤的通断,也可以在没有标记的情况下查找光纤两头对应的线序;是现场人员必备的光纤检测工具之一,打光笔的使用方法:需要1根FC-LC尾纤,将FC测插入打光笔接口(如图1),然后LC尾纤处连接法兰(图2);法兰在接入测试的尾纤,可以看见尾纤的一段亮红光(图3);
3、MPO/MTP接口清洁笔
1)MPO清洁笔主要用于消洁MPO和MTP型连接器的端面、MPO模块;这种清洁器采用无酒精材质,能够去除污垢而不损伤脆弱的光纤芯,甚至能去除肉眼看不见的极小污垢,从而改善光学结构工作的效率和通信服务的可靠性。如图1可以清理MPO接口模块(拔掉连接盖),如图2可以清理MPO接口光纤(清洁器与光纤用连接盖连接);
2)LC接口光纤清洁笔主要用于清洁LC光纤接口端面、LC接口模块;在光纤连接前,务必进行连接器的清洁,以去除灰尘、油污、碎屑等,确保通信质量。如图1是用LC清理笔清理LC尾纤(清洁器与光纤用连接盖连接)、图2是LC清理笔清理单模模块(拔掉清理器连接盖);
3)卡带式清洁器:外形如同早期的录放机“磁带”,它采用专用成卷的擦拭带,装在可卷动的外壳中,由于它的原理是采用强力粘胶把连接器端面的污物粘掉,因此无需酒精,且每次清洁都非常有效。缺点是有时粘胶本身会残留于连接器端面,而且粘胶带是消耗品,擦过的地方不能重复使用,成本较高。适用于LC、MPO、SC、MU、ST、D4、DIN接口光纤的清理;图1为LC接口光纤清理,图2为FC接口光纤清理。
二、常见的网络故障
1、链路DOWN故障
2、链路CRC故障
3、TOR整机替换
4、板卡替换
链路down故障,定义:端口直接故障(down),或者反复抖动。这样会导致业务层丢包重传。模块故障、连接中间链路有故障会引起链路down故障;
一般分为三种诊断场景:1、发光异常、2、收光异常、3、收发光正常。
1、发光异常
a、插拔设备(发光异常侧)光模块和光纤并清理尾纤和光模块:
1)根据提示的设备(发光异常侧)机架位和端口号,到达设备处。
2)插拔光纤和光模块
b、替换设备(发光异常侧)光模块
1)根据提示准备相应型号光模块备件
2)根据提示的设备x(发光异常侧)机架位和端口号,携带新光模块到达设备处。
3)更换光模块,恢复光纤。
c、还原替换模块,联系用户。
2、发光正常、收光异常
a、插拔设备(收光异常侧)光模块和光纤,并清理尾纤和光模块;
1)根据提示的设备(收光异常侧)机架位和端口号,到达设备处。
2)插拔光纤和光模块
b、替换设备(收光异常侧)光模块
1)根据提示准备相应型号光模块备件
2)根据提示的设备(收光异常侧)机架位和端口号,携带新光模块到达设备处。
3)更换光模块,恢复光纤。
3、还原设备(收光异常侧)光模块,插拔设备(对端)光模块和光纤,并清理尾纤、模块
1)还原设备(收光异常侧)模块
2)根据提示的设备(对端)机架位和端口号,到达设备处。
3)插拔光纤和光模块
4、替换设备(对端)光模块
1)根据提示准备相应型号光模块备件
2)根据提示的设备(对端)机架位和端口号,携带新光模块到达设备处。
3)更换光模块,恢复光纤。
5、还原设备(对端)光模块、替换设备(对端)侧尾纤
1)还原设备(对端)模块
2)在设备(对端)侧尾纤处,根据原有光纤连接关系信息,查看是否有备纤可供替换。
3)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备x(对端)端口)
4)核验通过则进行结单,否则还原原有光纤、进入下一步。
6、替换ODF机架位,即更换ODF备用端口
1)还原原有光纤(ODF-到设备(对端)端口)
2)根据尾纤连接ODF端信息,查找尾纤侧ODF信息和对端ODF连接信息
3)确认ODF架有到同方向的备用端口
4)替换两端ODF架原端口至备用端口
5)核验通过则进行结单,否则还原ODF架端口关系、进入下一步
7、替换(收光异常侧)尾纤
1)还原ODF架端口关系
2)根据提示的设备(收光异常侧)机架位和端口号,到达对端设备处
3)根据原有光纤连接关系信息,查看是否有备纤可供替换
4)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备(收光异常侧)端口)
备注:
1、遇见发光正常,收光异常时,现场可以用光功率计;测A端收光测尾纤>A端收光测ODF端口>对端ODF发光测尾纤>对端模块发光;依次分段测光、便于现场进行排障;
2、如使用备用尾纤、备用ODF端口后,要及时更改两端尾纤、或者两端ODF侧标签信息,避免后续出现误操作;
3、发光正常、收光正常
1、插拔设备1和设备2光模块和光纤,并清理尾纤和光模块:
1)根据提示的设备1机架位和端口号,到达设备处
2)插拔光纤和光模块
3)根据提示的设备2机架位和端口号,到达设备处
4)插拔光纤和光模块
2、替换设备x(告警侧)光模块
1)根据提示准备相应型号光模块备件
2)根据提示的设备x(告警侧)机架位和端口号,携带新光模块到达设备处。
3)更换光模块,恢复光纤。
3、替换设备x(对端)设备光模块
1)还原设备x(告警侧)光模块
2)根据提示准备相应型号光模块备件
3)根据提示的设备x(对端)机架位和端口号,携带新光模块到达设备处。
4)更换光模块,恢复光纤。
备注:可能存在模块型号适配性的问题,之前有用户接口人通知100G条模模块用同一厂商
链路crc故障,定义:CRC是指循环冗余校验错,交换机将数据完全拷贝进自己的缓存区并进行校验。如果有错,那么就丢掉该数据帧;光缆抖动、模块故障、光纤故障会引起CRC故障;一般分为两种诊断场景:1、收发光正常, 2、收发光异常。
1、收发光正常
1、插拔设备(告警侧)光模块和光纤:并清理尾纤和光模块:
1)根据提示的设备(告警侧)机架位和端口号,到达设备处
2)插拔光纤和光模块
2、替换设备(告警侧)光模块
1)根据提示准备相应型号光模块备件
2)根据提示的设备(告警侧)机架位和端口号,携带新光模块到达设备处。
3)更换光模块,恢复光纤。
3、还原设备(告警侧)光模块、插拔设备(对端)光模块和光纤,清理尾纤和光模块
1)还原设备(告警侧)光模块
2)根据提示的设备(对端)机架位和端口号,到达设备处
3)插拔光纤和光模块
4、替换设备x(对端)光模块
1)根据提示准备相应型号光模块备件
2)根据提示的设备(对端)机架位和端口号,携带新光模块到达设备处
3)更换光模块,恢复光纤
4)核验通过则进行结单,否则还原原有光纤、进入下一步
5、还原设备(对端)光模块,替换设备x(对端)侧尾纤
1)还原设备(对端)光模块
2)在设备(对端)侧尾纤处,根据原有光纤连接关系信息,查看是否有备纤可供替换
3)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备X(对端)端口)
4)核验通过则进行结单,否则还原原有光纤、进入下一步
6、替换ODF机架位
1)还原原有光纤(ODF-到设备x(对端)端口)
2)根据尾纤连接ODF端信息,查找尾纤侧ODF信息和对端ODF连接信息
3)确认ODF架有到同方向的备用端口
4)替换两端ODF架原端口至该备用端口
5)核验通过则进行结单,否则还原原有光纤、进入下一步
7、替换设备(告警侧)尾纤
1)还原ODF架端口关系
2)根据提示的设备(告警侧)机架位和端口号,到达对端设备处
3)根据原有光纤连接关系信息,查看是否有备纤可供替换
4)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备(告警侧)端口)
备注:如使用备用ODF端口后,要及时更改两端尾纤、及两端ODF侧标签信息,避免后续出现误操作;
2、收发光异常
1、插拔设备(收发光异常侧)光模块和光纤,清理尾纤和模块;
1)根据提示的设备(收发光异常侧)机架位和端口号,到达设备处
2)插拔光纤和光模块
2、替换设备(收发光异常侧)光模块
1)根据提示准备相应型号光模块备件
2)根据提示的设备(收发光异常侧)机架位和端口号,携带新光模块到达设备处。
3)更换光模块,恢复光纤。
3、还原设备(收发光异常侧)光模块、插拔设备x(对端)光模块和光纤,清理尾纤和模块
1)还原设备(收发光异常侧)光模块
2)根据提示的设备x(对端)机架位和端口号,到达设备处
3)插拔光纤和光模块
4、替换设备(对端)光模块
1)根据提示准备相应型号光模块备件
2)根据提示的设备(对端)机架位和端口号,携带新光模块到达设备处。
3)更换光模块,恢复光纤。
4)核验通过则进行结单,否则还原替换模块、进入下一步
5、还原设备(对端)光模块,替换设备x(对端)侧尾纤
1)还原设备(对端)光模块
2)在设备(对端)侧尾纤处,根据原有光纤连接关系信息,查看是否有备纤可供替换
3)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备(对端)端口)
4)核验通过则进行结单,否则还原原有光纤、进入下一步
6、替换ODF机架位
1)还原原有光纤(ODF-到设备(对端)端口)
2)根据尾纤连接ODF端信息,查找尾纤侧ODF信息和对端ODF连接信息
3)确认ODF架有到同方向的备用端口
4)替换两端ODF架原端口至该备用端口
5)核验通过则进行结单,否则还原原有光纤、进入下一步
7、替换设备(收发光异常侧)尾纤
1)还原ODF架端口关系
2)根据提示的设备(收发光异常侧)机架位和端口号,到达对端设备处
3)根据原有光纤连接关系信息,查看是否有备纤可供替换
4)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备(收发光异常侧)端口)
TOR整机故障
当遇到TOR整机故障时,网络接口人会通知现场同学断电重启,如断电重启Tor整机依旧无反应,网络接口人会通知现场同学准备备机;现场同学将备机放置在工位,网络接口人会远程刷交换机配置;待配置完成后,现场同学将交换机带入机房进行替换;(目前常见的预期、非预朗的TOR替换会提前刷配置,少部分TOR设备现场上架连接管理线后,现场配置管理IP,网络接口人会远程管理TOR进行刷配置);
前期准备阶段:
1)放置1-2台同型号的备机于指定空机柜内便于替换,定期由资产同学检查数量并及时补充。
2)按照网络接口人提供的最新版本信息对该数据中心所有TOR类型进行配置:
该类型设备数量<2台,对该类型TOR全部配置;
该类型设备数量≥2台,初始化2台即可;
如果被配置的TOR备机被使用,该类型TOR需要补充初始化配置≥2台;
当该类型 TOR剩余数量不足时需向网络组接口人反馈;
3)初始化配置成功标准:可使用管理IP telnet 登录交换机TOR交换机;配置完成需要将该 TOR设备打印标签:标记管理IP地址、可使用状态,以便后续使用人员查 找使用。
4)操作同学提前佩戴防静电手环;
替换阶段:
1)现场工程师收到SDN故障工单或整机故障处理通知,由报障人提供设备位置、替换设备的型号和管理IP,并携带电脑、console线及螺丝刀至目的机柜.
2)现场工程师将交换机搬出,记录设备 SN(包括机框、子卡、电源等)并拍照留底,照片附在网络设备上下线邮件中。
3)使用console 线管理设备的,确认设备没有登录密码;确认设备为空配置上架;使用自动化推送软件灌入初始化配置.
4)将设备搬入现场,确认在线设备状态。
5)联系报障人,告知交换机上标注的管理 1P地址,并告知现场情况,由报障人确认能否操作(SDN工单一般都是自研交换机,无需提供管理IP,插上管理口后会自动下载配置)。
6)记录线序,特别留意是否替换过备线(包括上联核心和下联服务器线路)。
7)确认可以操作后,依次移除故障设备:断电→拔掉管理网线→拨掉上联光纤一拨掉下联光纤/网线→拨掉模块(包含子卡、子卡链接光纤和模块、不要只整个拨下来)
8)新设备整机上架加电。
9)连接管理线后设备正常启动,联系网络接口人确认其能否远程管理。如无法管理,现场需继续排查物理链路是否有问题,直至可以远程管理.
10) 报障人加载配置完成后联系现场同学,明确要求恢复上联核心链路,恢复过程中保持电话连通:先恢复上联第一根光纤和模块一发单人确认一再恢复其他上联链路。如无法获取配置信息,现场可尝试使用命令拉取配置信息。
11)确认恢复上联核心线路后联系报障人,核实上联链路情况。
12)确认上联链路正常后,联系报障人恢复服务器链路:根据线序记录插入下联模块,恢复光纤.
13)恢复完毕后告知发单人,反馈发单人上线设备 SN、下线设备 SN、零件SN.
14)报障人确认无问题结单;如未发工单则提醒报障人在替换完成及时补发工单.
板卡替换
板卡替换常用于:超核、普核的板卡替换;
准备工作:
在收到板卡备件后,一定要保留原厂包装及防静电袋;操作同学及时佩戴防静电手环,避免产生静电,对设备产生损坏;
替换阶段:
1)现场工程师收到板卡故障工单或板卡故障处理通知,由报障人提供设备位置和板卡的位置及型号。
2)现场工程师到库房确认是否有该型号板卡,如有拍照记录板卡SN并带至现场。
3)根据工单查找设备并确认线上板卡状态,联系报障人告知现场情况,由报障人确认能否操作。
4)记录线序,重点查看是否使用备线(包括上联核心和下联服务器线路),如已使用,在恢复下联前不要再插原来的线缆。
5)移除光纤或网线,注意保护光纤接头,如有光模块拔出。
6)更换故障板卡
7)电话通知报障人:“板卡已经安装完毕,请查看板卡状态。
8)保持通话等待板卡识别确认通知,期间板卡如有异常及时告知报障人。
9) 恢复光模块,与报障人电话确认是否有异常,确认是否能恢复光纤。
10)恢复光纤,与报障人电话确认是否全部正常。
11)将上线设备SN和下线设备 SN邮件发给报障人提上线单。如未发工单则提醒报障人。
板卡拆卸过程
1)确定需要卸载的业务板卡。
2)若卸载业务板卡,请注意先拔下模块拉手条上的以太网电缆、串口电缆或者光纤接头并放置在安全的地方并做好标记以便复原。
3)操作有光口的线路接口模块时,勿直视光模块的TX端口和光纤线缆末端。
4)操作前需佩戴防静电手套或手环,避免产生静电将电路板损坏,用螺丝刀松开拉手条两端的紧固螺丝。
5)双手抓住拉手条两端的扳手,移出约10cm。
6)一手托住板卡底部,一手抓住板卡,平缓移出。
7)将故障板卡在安全位置平放,如有防静电袋,将其装置防静电袋中。
板卡安装过程
与拆卸过程相反,将板卡平缓推入,剩余10cm时拉出板卡两侧把手,推入最后10cm,压紧扳手紧固螺丝。