机房网络故障排查经常会用到测光工具、光纤清理工具,这些工具是IDC机房网络排查故障的主要工具;

      1.机房常见测光工具:光源、光功率计、打光笔

      2.机房常用的光纤清理工具有:MPO接口光纤清洁笔、LC接口光纤清洁笔、卡带式光纤清洁器

 1、光源和光功率计

     光源是一种发特定波长的光的仪器,用于测试光纤的衰耗情况,通常连接一根尾纤,将需要测试的光纤用法兰相连,在被测光纤的另一头用光功率计测试接收功率,接收功率与发光功率之差就是光纤的衰耗情况。

     光源可发三种波长的光:850nm、1310nm,1550nm波长;根据需要按λ键可以选择相应的波长;光源的发光功率通常为-6.00dbm(dbm为功率单位)。

    光功率计:光功率计是一种测试特定波长光功率的仪器,通常连接一根尾纤,将需要测试的光纤用法兰相连,光功率计同样需要选择特定的波长,包含:850nm,1310nm,1510nm,1550nm波长;根据需要按λ键可以选择相应的波长;dm/dbm需要选择到dbm来测试收光。

     光功率计/光源使用方法:开机>λ键调试波长(多模850  单模1310、1550)>用FC头的尾纤连接光功率计的接口,确保FC头的凸起部分插入U型槽,再拧紧螺纹,>如测尾纤收发光时需要法兰连接;如测模块收发光时不需要法兰,只收把LC尾纤插入模块发光TX口就行;

      光源和光功率计的区别:光源是产生光、发射光的设备,而光功率计是用来测量光功率的仪器。

IDC机房网络故障排查_备件

 1)、手头没有光功率计时候:多模模块是可以通过肉眼看见模块接口有红光;单模模块可以通过手机相机看模块接口有红光;如果模块不发光大概率就是模块故障;常用光功率计测模块、尾纤收发光;

2)、光模块的光衰值一般发光TX值在-5~4db之间、收光RX值在-10~4db之间;

3)、光功率计常见测LC接口的单、多模模块和单、多模尾纤,不能测MPO接口尾纤和模块;

2、打光笔

     打光笔(又称红光笔,光纤测试笔)光纤接到红光笔或光源上,既可以测试光纤的通断,也可以在没有标记的情况下查找光纤两头对应的线序;是现场人员必备的光纤检测工具之一,打光笔的使用方法:需要1根FC-LC尾纤,将FC测插入打光笔接口(如图1),然后LC尾纤处连接法兰(图2);法兰在接入测试的尾纤,可以看见尾纤的一段亮红光(图3);

IDC机房网络故障排查_端口号_02

3、MPO/MTP接口清洁笔

     1)MPO清洁笔主要用于消洁MPO和MTP型连接器的端面、MPO模块;这种清洁器采用无酒精材质,能够去除污垢而不损伤脆弱的光纤芯,甚至能去除肉眼看不见的极小污垢,从而改善光学结构工作的效率和通信服务的可靠性。如图1可以清理MPO接口模块(拔掉连接盖),如图2可以清理MPO接口光纤(清洁器与光纤用连接盖连接);

IDC机房网络故障排查_链路_03

      2)LC接口光纤清洁笔主要用于清洁LC光纤接口端面、LC接口模块;在光纤连接前,务必进行连接器的清洁,以去除灰尘、油污、碎屑等,确保通信质量。如图1是用LC清理笔清理LC尾纤(清洁器与光纤用连接盖连接)、图2是LC清理笔清理单模模块(拔掉清理器连接盖);

IDC机房网络故障排查_备件_04

   3)卡带式清洁器:外形如同早期的录放机“磁带”,它采用专用成卷的擦拭带,装在可卷动的外壳中,由于它的原理是采用强力粘胶把连接器端面的污物粘掉,因此无需酒精,且每次清洁都非常有效。缺点是有时粘胶本身会残留于连接器端面,而且粘胶带是消耗品,擦过的地方不能重复使用,成本较高。适用于LC、MPO、SC、MU、ST、D4、DIN接口光纤的清理;图1为LC接口光纤清理,图2为FC接口光纤清理。

IDC机房网络故障排查_端口号_05


二、常见的网络故障

  1、链路DOWN故障

  2、链路CRC故障

  3、TOR整机替换

  4、板卡替换

      链路down故障,定义:端口直接故障(down),或者反复抖动。这样会导致业务层丢包重传。模块故障、连接中间链路有故障会引起链路down故障;

      一般分为三种诊断场景:1、发光异常、2、收光异常、3、收发光正常。

1、发光异常

   a、插拔设备(发光异常侧)光模块和光纤并清理尾纤和光模块:

      1)根据提示的设备(发光异常侧)机架位和端口号,到达设备处。

      2)插拔光纤和光模块

   b、替换设备(发光异常侧)光模块

      1)根据提示准备相应型号光模块备件

      2)根据提示的设备x(发光异常侧)机架位和端口号,携带新光模块到达设备处。

      3)更换光模块,恢复光纤。

   c、还原替换模块,联系用户。

 2、发光正常、收光异常

   a、插拔设备(收光异常侧)光模块和光纤,并清理尾纤和光模块;

     1)根据提示的设备(收光异常侧)机架位和端口号,到达设备处。

     2)插拔光纤和光模块

   b、替换设备(收光异常侧)光模块

     1)根据提示准备相应型号光模块备件

     2)根据提示的设备(收光异常侧)机架位和端口号,携带新光模块到达设备处。

     3)更换光模块,恢复光纤。

3、还原设备(收光异常侧)光模块,插拔设备(对端)光模块和光纤,并清理尾纤、模块   

   1)还原设备(收光异常侧)模块

   2)根据提示的设备(对端)机架位和端口号,到达设备处。

   3)插拔光纤和光模块

4、替换设备(对端)光模块

   1)根据提示准备相应型号光模块备件

   2)根据提示的设备(对端)机架位和端口号,携带新光模块到达设备处。

   3)更换光模块,恢复光纤。

5、还原设备(对端)光模块、替换设备(对端)侧尾纤

   1)还原设备(对端)模块

   2)在设备(对端)侧尾纤处,根据原有光纤连接关系信息,查看是否有备纤可供替换。

   3)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备x(对端)端口)

   4)核验通过则进行结单,否则还原原有光纤、进入下一步。

6、替换ODF机架位,即更换ODF备用端口

   1)还原原有光纤(ODF-到设备(对端)端口)

   2)根据尾纤连接ODF端信息,查找尾纤侧ODF信息和对端ODF连接信息

   3)确认ODF架有到同方向的备用端口

   4)替换两端ODF架原端口至备用端口

   5)核验通过则进行结单,否则还原ODF架端口关系、进入下一步


7、替换(收光异常侧)尾纤

   1)还原ODF架端口关系

   2)根据提示的设备(收光异常侧)机架位和端口号,到达对端设备处

   3)根据原有光纤连接关系信息,查看是否有备纤可供替换

   4)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备(收光异常侧)端口)

备注:

   1、遇见发光正常,收光异常时,现场可以用光功率计;测A端收光测尾纤>A端收光测ODF端口>对端ODF发光测尾纤>对端模块发光;依次分段测光、便于现场进行排障;

   2、如使用备用尾纤、备用ODF端口后,要及时更改两端尾纤、或者两端ODF侧标签信息,避免后续出现误操作;

3、发光正常、收光正常

1、插拔设备1和设备2光模块和光纤,并清理尾纤和光模块:

  1)根据提示的设备1机架位和端口号,到达设备处

  2)插拔光纤和光模块

  3)根据提示的设备2机架位和端口号,到达设备处

  4)插拔光纤和光模块


2、替换设备x(告警侧)光模块

  1)根据提示准备相应型号光模块备件

  2)根据提示的设备x(告警侧)机架位和端口号,携带新光模块到达设备处。

  3)更换光模块,恢复光纤。


3、替换设备x(对端)设备光模块

   1)还原设备x(告警侧)光模块

   2)根据提示准备相应型号光模块备件

   3)根据提示的设备x(对端)机架位和端口号,携带新光模块到达设备处。

   4)更换光模块,恢复光纤。


      备注:可能存在模块型号适配性的问题,之前有用户接口人通知100G条模模块用同一厂商

      链路crc故障,定义:CRC是指循环冗余校验错,交换机将数据完全拷贝进自己的缓存区并进行校验。如果有错,那么就丢掉该数据帧;光缆抖动、模块故障、光纤故障会引起CRC故障;一般分为两种诊断场景:1、收发光正常, 2、收发光异常。

1、收发光正常

   1、插拔设备(告警侧)光模块和光纤:并清理尾纤和光模块:

      1)根据提示的设备(告警侧)机架位和端口号,到达设备处

      2)插拔光纤和光模块

  2、替换设备(告警侧)光模块

     1)根据提示准备相应型号光模块备件

     2)根据提示的设备(告警侧)机架位和端口号,携带新光模块到达设备处。

     3)更换光模块,恢复光纤。

  3、还原设备(告警侧)光模块、插拔设备(对端)光模块和光纤,清理尾纤和光模块

    1)还原设备(告警侧)光模块

   2)根据提示的设备(对端)机架位和端口号,到达设备处

   3)插拔光纤和光模块

4、替换设备x(对端)光模块

   1)根据提示准备相应型号光模块备件

  2)根据提示的设备(对端)机架位和端口号,携带新光模块到达设备处

   3)更换光模块,恢复光纤

   4)核验通过则进行结单,否则还原原有光纤、进入下一步

5、还原设备(对端)光模块,替换设备x(对端)侧尾纤

   1)还原设备(对端)光模块

   2)在设备(对端)侧尾纤处,根据原有光纤连接关系信息,查看是否有备纤可供替换 

   3)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备X(对端)端口)

   4)核验通过则进行结单,否则还原原有光纤、进入下一步

6、替换ODF机架位

   1)还原原有光纤(ODF-到设备x(对端)端口)

   2)根据尾纤连接ODF端信息,查找尾纤侧ODF信息和对端ODF连接信息

   3)确认ODF架有到同方向的备用端口

   4)替换两端ODF架原端口至该备用端口

   5)核验通过则进行结单,否则还原原有光纤、进入下一步

7、替换设备(告警侧)尾纤

   1)还原ODF架端口关系

   2)根据提示的设备(告警侧)机架位和端口号,到达对端设备处

   3)根据原有光纤连接关系信息,查看是否有备纤可供替换

   4)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备(告警侧)端口)

备注:如使用备用ODF端口后,要及时更改两端尾纤、及两端ODF侧标签信息,避免后续出现误操作;

2、收发光异常

1、插拔设备(收发光异常侧)光模块和光纤,清理尾纤和模块;

    1)根据提示的设备(收发光异常侧)机架位和端口号,到达设备处

    2)插拔光纤和光模块

2、替换设备(收发光异常侧)光模块

     1)根据提示准备相应型号光模块备件

     2)根据提示的设备(收发光异常侧)机架位和端口号,携带新光模块到达设备处。 

     3)更换光模块,恢复光纤。

3、还原设备(收发光异常侧)光模块、插拔设备x(对端)光模块和光纤,清理尾纤和模块

    1)还原设备(收发光异常侧)光模块

    2)根据提示的设备x(对端)机架位和端口号,到达设备处

    3)插拔光纤和光模块

4、替换设备(对端)光模块

   1)根据提示准备相应型号光模块备件

   2)根据提示的设备(对端)机架位和端口号,携带新光模块到达设备处。

   3)更换光模块,恢复光纤。

   4)核验通过则进行结单,否则还原替换模块、进入下一步

5、还原设备(对端)光模块,替换设备x(对端)侧尾纤

    1)还原设备(对端)光模块

    2)在设备(对端)侧尾纤处,根据原有光纤连接关系信息,查看是否有备纤可供替换

    3)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备(对端)端口)

    4)核验通过则进行结单,否则还原原有光纤、进入下一步

 6、替换ODF机架位

    1)还原原有光纤(ODF-到设备(对端)端口)

    2)根据尾纤连接ODF端信息,查找尾纤侧ODF信息和对端ODF连接信息

    3)确认ODF架有到同方向的备用端口

    4)替换两端ODF架原端口至该备用端口

    5)核验通过则进行结单,否则还原原有光纤、进入下一步

 7、替换设备(收发光异常侧)尾纤

    1)还原ODF架端口关系

    2)根据提示的设备(收发光异常侧)机架位和端口号,到达对端设备处

    3)根据原有光纤连接关系信息,查看是否有备纤可供替换

    4)如有备纤,根据原光纤连接关系进行备线替换(ODF-到设备(收发光异常侧)端口)

TOR整机故障

     当遇到TOR整机故障时,网络接口人会通知现场同学断电重启,如断电重启Tor整机依旧无反应,网络接口人会通知现场同学准备备机;现场同学将备机放置在工位,网络接口人会远程刷交换机配置;待配置完成后,现场同学将交换机带入机房进行替换;(目前常见的预期、非预朗的TOR替换会提前刷配置,少部分TOR设备现场上架连接管理线后,现场配置管理IP,网络接口人会远程管理TOR进行刷配置);

前期准备阶段:

   1)放置1-2台同型号的备机于指定空机柜内便于替换,定期由资产同学检查数量并及时补充。

   2)按照网络接口人提供的最新版本信息对该数据中心所有TOR类型进行配置:

      该类型设备数量<2台,对该类型TOR全部配置;

      该类型设备数量≥2台,初始化2台即可;

      如果被配置的TOR备机被使用,该类型TOR需要补充初始化配置≥2台;

      当该类型 TOR剩余数量不足时需向网络组接口人反馈;

  3)初始化配置成功标准:可使用管理IP telnet 登录交换机TOR交换机;配置完成需要将该 TOR设备打印标签:标记管理IP地址、可使用状态,以便后续使用人员查 找使用。

  4)操作同学提前佩戴防静电手环;

替换阶段:

   1)现场工程师收到SDN故障工单或整机故障处理通知,由报障人提供设备位置、替换设备的型号和管理IP,并携带电脑、console线及螺丝刀至目的机柜.

   2)现场工程师将交换机搬出,记录设备 SN(包括机框、子卡、电源等)并拍照留底,照片附在网络设备上下线邮件中。

   3)使用console 线管理设备的,确认设备没有登录密码;确认设备为空配置上架;使用自动化推送软件灌入初始化配置.

   4)将设备搬入现场,确认在线设备状态。

   5)联系报障人,告知交换机上标注的管理 1P地址,并告知现场情况,由报障人确认能否操作(SDN工单一般都是自研交换机,无需提供管理IP,插上管理口后会自动下载配置)。

   6)记录线序,特别留意是否替换过备线(包括上联核心和下联服务器线路)。

   7)确认可以操作后,依次移除故障设备:断电→拔掉管理网线→拨掉上联光纤一拨掉下联光纤/网线→拨掉模块(包含子卡、子卡链接光纤和模块、不要只整个拨下来)

    8)新设备整机上架加电。

    9)连接管理线后设备正常启动,联系网络接口人确认其能否远程管理。如无法管理,现场需继续排查物理链路是否有问题,直至可以远程管理.

   10) 报障人加载配置完成后联系现场同学,明确要求恢复上联核心链路,恢复过程中保持电话连通:先恢复上联第一根光纤和模块一发单人确认一再恢复其他上联链路。如无法获取配置信息,现场可尝试使用命令拉取配置信息。

    11)确认恢复上联核心线路后联系报障人,核实上联链路情况。

    12)确认上联链路正常后,联系报障人恢复服务器链路:根据线序记录插入下联模块,恢复光纤.

     13)恢复完毕后告知发单人,反馈发单人上线设备 SN、下线设备 SN、零件SN.

     14)报障人确认无问题结单;如未发工单则提醒报障人在替换完成及时补发工单.

板卡替换

板卡替换常用于:超核、普核的板卡替换;

准备工作:

   在收到板卡备件后,一定要保留原厂包装及防静电袋;操作同学及时佩戴防静电手环,避免产生静电,对设备产生损坏;

替换阶段:

    1)现场工程师收到板卡故障工单或板卡故障处理通知,由报障人提供设备位置和板卡的位置及型号。

    2)现场工程师到库房确认是否有该型号板卡,如有拍照记录板卡SN并带至现场。

    3)根据工单查找设备并确认线上板卡状态,联系报障人告知现场情况,由报障人确认能否操作。

    4)记录线序,重点查看是否使用备线(包括上联核心和下联服务器线路),如已使用,在恢复下联前不要再插原来的线缆。

    5)移除光纤或网线,注意保护光纤接头,如有光模块拔出。

   6)更换故障板卡

   7)电话通知报障人:“板卡已经安装完毕,请查看板卡状态。

   8)保持通话等待板卡识别确认通知,期间板卡如有异常及时告知报障人。

   9) 恢复光模块,与报障人电话确认是否有异常,确认是否能恢复光纤。

   10)恢复光纤,与报障人电话确认是否全部正常。

   11)将上线设备SN和下线设备 SN邮件发给报障人提上线单。如未发工单则提醒报障人。

板卡拆卸过程

    1)确定需要卸载的业务板卡。

    2)若卸载业务板卡,请注意先拔下模块拉手条上的以太网电缆、串口电缆或者光纤接头并放置在安全的地方并做好标记以便复原。

   3)操作有光口的线路接口模块时,勿直视光模块的TX端口和光纤线缆末端。

    4)操作前需佩戴防静电手套或手环,避免产生静电将电路板损坏,用螺丝刀松开拉手条两端的紧固螺丝。

   5)双手抓住拉手条两端的扳手,移出约10cm。

   6)一手托住板卡底部,一手抓住板卡,平缓移出。

   7)将故障板卡在安全位置平放,如有防静电袋,将其装置防静电袋中。

板卡安装过程

      与拆卸过程相反,将板卡平缓推入,剩余10cm时拉出板卡两侧把手,推入最后10cm,压紧扳手紧固螺丝。