- 1. OptiX 10G(Metro 5000) 日常维护介绍熊世荣 31138
- 2. 前言基于OptiX 10GV2产品日常维护操作和手段,开发此课程。
本课程旨在使工程师掌握OptiX 10GV2产品的维护相关的知识和思路,并能够在实际工作中加以运用。Page
- 3. 课程目标学习完此课程,您应能:
了解常见告警的产生原因以及处理方法
掌握软件升降级方法和注意事项
掌握基础维护知识
掌握常见问题的处理方法Page
- 4. 内容介绍常见告警介绍
软件升降级介绍
基础维护知识
常见问题处理
Page
- 5. 10GV2常见告警介绍APS_INDI
告警名称:
复用段倒换告警,主控上报,表示发生了复用段倒换。
告警产生的原因:
(1)发生了复用段倒换;
(2)线性复用段备用通道失效。(10GV2从5.10.02.30版本开始,备用通道失效时增加了这个告警,其它4.0平台均如此处理)
告警参数说明:
PARA1:表示复用段类型,(1:线性复用段,2:复用段环)
PARA2:表示复用段保护组id。
126 23 apsindi major end 2004-8-19 16:20:7 0x02 0x01 0xff 0xff 0xff
处理方法:
排除触发复用段保护的故障或排除线性复用段备用通道故障后,查看告警是否排除。 Page
- 6. 10GV2常见告警介绍NEBD_XC_DIF
告警名称:
主机与单板交叉矩阵数据不一致,由主机上报。
告警产生的原因:
主机与线路板或者交叉板上的高阶业务矩阵不一致, 或者主机与低阶交叉板上的
低阶业务不一致。当复用段(或者sncp)倒换异常或者以太网通信不通做配置
校验操作时,就可能出现此告警。
告警检测机制:
主机每5分钟会对单板侧的交叉矩阵数据进行一次比较,如果单板返回的矩阵和
主机侧的不一致,或者单板无返回,则认为主机和单板侧数据不一致,上报
NEBDXCDIF告警。5.10.02.30版本以后以后增加了新的校验机制:即第一次检
测到数据不一致并不上报告警,只有连续第二次检测到不一致才上报告警,并且
在第二次检测到该告警后,主机会重新下发配置数据给有问题的单板,单板完全
接收到交叉数据后,告警消失。
Page
- 7. 10GV2常见告警介绍NEBD_XC_DIF
告警参数说明:
Para1:表示数据不一致的板位;
Para2:业务类型,1表示高阶业务矩阵不一致, 2表示低阶业务不一致;
para[3-5]: 0xff, 保留。
举例:
590170 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6-
22 18:45:43 0x06 0x01 0xff 0xff 0xff
处理方法:
1、查看交叉板中是否有本单板的配置数据,如果没有数据,修改配置数据后重新
下发;
2、判断是否存在单板故障,如果单板故障,直接更换故障单板。Page
- 8. 10GV2常见告警介绍APSMANUALSTOP
告警名称:
复用段协议人工停止告警 。维护版本和5.10.04.30P03正式版本增加的告警。级
别:次要。
告警产生的原因:
复用段协议停止。
告警参数说明:
第一个参数:0x01表示线性复用段,0x02表示环形复用段;
第二个参数:表示保护组ID号。
举例:
2952 23 apsmanualstop minor start 2003-12-30 16:53:56 None 0x02
0x01 0xff 0xff 0xff
处理方法:
重新启动复用段协议。Page
- 9. HDLC_FAIL
告警名称:
HDLC通信失败,主机上报。
告警产生的原因:
主机和单板之间的HDLC通道(紧急通道)通信失败,主机每分钟下发命令检测
HDLC通道是否正常,如果异常,上报告警。复用段(SNCP)在下发数据时,如
果下发失败就上报这个告警。这个告警可以导致倒换失败,因为协议的处理中都
时通过hdlc通道把数据下发给线路板和交叉板的。
告警参数说明:
第一个参数为板号,指主控与哪个单板通信失败;第二个参数为模块号,指那个
模块通过HDLC通信失败;
处理方法:
1、更换上报告警的单板,查看告警是否排除。
2、如果更换单板后,告警没有排除,更换插板的槽位,检查告警是否排除。 10GV2常见告警介绍Page
- 10. COMMUN_FAIL
告警名称:
单板以太网通信失败告警,单板上报。
告警产生的原因:
ACOM单板不在位,或者是单板之间的以太网通信故障(例如ACOM单板的BIOS
芯片版本较低)等,早期版本vxworks系统缺陷导致运行479天后误报该告警 。
告警参数说明:
第3个参数(PARA3)有4个值,值为1-3分别代表RS485的A/B/C通道故障(由单
板软件上报,单板检测到不通);值为4表示板间以太网通信不通。
5.10.02.30及以后版本进行了修改:由原来的只由以太网通信检测单板在线状态,
改为以太网通信和hdlc共同检测单板在线状态,即只有以太网通信和hdlc都不通
的情况下(告警维持3分钟左右)才报bdstatus告警(单板拔板的条件下)。仅仅
以太网通信不通只上报commufail告警,仅仅hdlc不通则上报hdlcfail告警。10GV2常见告警介绍Page
- 11. 告警的影响:
1)以太网通信故障会导致主机和单板的配置无法正常下发;
2)以太网通信故障时,如果进行有校验的操作(如增删业务等),主机会重新
下发交叉矩阵,可能会导致主机和单板配置数据不一致,业务中断。
5.10.02.30之前的主机和配套的ACOM板有以太网通信通信故障的情况,主机升级
到5.10.02.30 及以后版本、ACOM板的BIOS芯片版本升级为302即可解决以太网通
信的问题。
告警参数说明:
参数3值为1表示紧急通道故障、2表示A通道故障、3表示B通道故障,4表示以太网故障。
举例:
64 14 communfail major start 2004-8-4 19:1:30 None 0x01 0000
0x04 0xff 0xff
处理方法:
1、如果是某块单板单独上报本告警,更换上报告警的单板,查看告警是否排除 ;
2、如果是多块单板同时上报本告警,逐一拔出单板,查看告警是否排除。 10GV2常见告警介绍Page
- 12. SYSBUS_FAIL
告警名称:
设备总线异常告警,主机5.10.02.30、 5.10.04.20及以后版本开始支持,网管要
T2000V1R6及以后版本才支持。
告警含义:
SYSBUSFAIL是在整改过程中为了方便定位问题而增加的告警。交叉板对线路板通
过母板送过来的622M业务总线进行检测,当检测到总线上有B1、OOF、LOS告警
时,交叉板会上报SYSBUSFAIL告警。
告警产生的原因:
告警产生表示交叉和线路之间的业务总线发生了问题,如果是交叉板上报线路板
业务总线异常告警,问题可能是线路板故障。如果是线路板上报交叉板总线异
常,则可能是交叉板故障。
告警参数含义:
PARA1表示总线类型,(1-业务总线,目前只有1),PARA3表示有问题的线路板
板位号,PARA4表示该线路板有问题的622M总线序号。10GV2常见告警介绍Page
- 13. SYSBUS_FAIL
告警举例:
48 4 sysbusfail major start 2004-8-16 16:31:8 None 0x01 0000 0x16 0x03
0xff
处理方法:
复位线路或交叉,如果不能恢复,直接更换线路或交叉。如:
1、如果交叉板上报线路板总线异常,使用:nptp:15,d,1f,x;或者:nptp:16,d,1f,x;
命令检查交叉板收线路板的业务情况(查询通道的OOF和B1情况),一般是线
路板故障,硬复位或者更换线路板。
2、如果线路板上报交叉板总线异常,就要使用:nptp:bid,9,37,x;来查询交叉板
业务总线状态。一般是交叉板故障,可以硬复位交叉板或者换板解决。
10GV2常见告警介绍Page
- 14. SCC_CHANGE
告警名称:
更换了主控告警,主控上报。
告警意义:
做为更换主控板功能的一部分,更换主控板后,上报该告警,通知用户及时进
行相关干预,因为此时主机判断发生了更换主控板,那么所有的信息都是未校
验的(相当于下发过cfg-init-all命令,此时业务也无法得到复用段、SNCP等的
保护),只有用户下发cfg-verify命令这些信息才会下发,复用段协议也才会自
启动。
告警参数:
无
处理方法:
从网管重新下发业务配置后,告警自动解除。
10GV2常见告警介绍Page
- 15. 本节我们主要学习了:
常见告警产生原因
常见告警处理方法小结Page
- 16. 内容介绍常见告警介绍
软件升降级介绍
基础维护知识
常见问题处理
Page
- 17. 10GV2升降级介绍主机升降级擦库说明
OptiX 10G主机软件升级时,不需要擦除数据库(除升级到5.10.06.30版本以外):即低版本升级到高版本如从R001升级到R002/R003/R004以及以上版本时,不需要擦除低版本的drdb、fdb0、fdb1数据库,直接擦除低版本的主机软件,然后加载高版本主机即可。
主机软件降级时,必须先擦除老的主机软件的数据库drdb、fdb0、fdb1,然后再加载老的主机软件。
擦除数据库有三种方式:
1、在主机软件运行状态下,可以通过命令“:dbms-delete-all:drdb”、“:dbms-delete-
all:fdb0”、“:dbms-delete-all:fdb1”命令来擦除数据库;
2、在主机软件未加载仅运行BIOS状态下,可以采用如下方法擦除数据库:
(1)串口下使用memset(0x2004a000,0x00,0x100000)直接擦除drdb;
(2)串口下使用qefdb(1)、qefdb(2)命令分别擦除flash1和flash2。
3、使用ID拨码方式删除数据库:把低12位ID拨为全1,上电运行3分钟,可以擦除
DRDB/FDB0/FDB1以及两套主机软件;低12位ID的最低位拨为0,其它为1,则仅擦除
DRDB/FDB0/FDB1数据库。Page
- 18. 软件加载说明:
主机软件加载时,要求先擦除第二套(默认第一套为active,第二套为inactive),然后加载第二套为新的主机软件,并且启用。接着再擦除第一套并且加载第一套。即采用“先擦除和加载第二套主机,再擦除和加载第一套”的方式;
加载主机软件规范要求:擦除一套加载一套,加载主机之前不需要停止复用段协议,不建议同时擦除两套老主机然后再加载新主机。开局时的主机升级等特殊情况可以同时擦除两套主机。
软件加载的顺序:
一般要求是主机-交叉板-线路板的顺序,对于部分版本,有SLQ4时要先升
级主机,再升级SLQ4,然后升级交叉板、最后升级线路板的顺序。
对于有AMXS交叉板时,不管是否有SLQ4单板,升级顺序都是先升级主机,
再升级线路板,然后升级AMXS交叉板。
每一个主机版本的升级顺序可以参考该版本的《产品软件升级指导书》。
10GV2升降级介绍Page
- 19. 升级过程中,可以把所有单板的FPGA和单板软件升级完毕后再统一硬复位,但是不能一起复位所有单板,要求一块块的进行复位,等上一块复位正常开工后再继续复位下一块。
单板软件加载时,要求先加载FPGA,再加载单板软件(也可以先加载单板软件再加载FPGA),然后统一对单板硬复位;如果仅仅加载单板软件,则软复位即可。
对于没有保护的线路板,硬复位会导致业务中断!在升级过程中要充分和用户做好沟通。
软件加载可能出现的一些问题:
在下载新的主机后利用:sys-get-nesoftver查询为新的版本,但是用:ver查询仍然是老的主机版本;
主机是加载在FLASH里的,:sys-get-nesoftver就是查询FLASH的内容;而:ver查
询的是内存中的数据,需要复位主机内存中的数据才能更新为新的版本。
在下载5.10.04.30P03主机后,查询FDB0为空 ;
R004主机调整了数据库的分配,导致fdb0地址变化,所以升级后会发现用“dbms-
get-list”查询fdb0为空的情况,这里只需将drdb拷入fdb0即可,fdb1无此问题。10GV2升降级介绍Page
- 20. 主机升降级案例:
降级主机软件时没有擦库导致降级后主机频繁复位
升级10GV2网元,主机软件从5.10.01.20升级到5.10.02.20,升级之后发现出现
一些问题,需要紧急倒回到原来的版本,现场倒回之后发现主机频繁复位,无法
正确下发配置。
原因分析:
两个主机版本数据库是不同的,可以平滑升级,但降级时一定需要先擦除数据
库,这一点是在主机版本说明书、升级指导书中已经明确说明的,现场降级时没
有先擦除数据库,而是直接启用了低版本主机软件,导致数据库格式不正确,主
机读取数据库失败,频繁发生复位,最后进入保护模式。
要求:
不同版本的主机之间降级时,由于数据库版本不一致,都要擦除数据库后再降级。
10GV2升降级介绍Page
- 21. SLQ4单板升级时配套关系错误导致业务中断
版本升级时,SLQ4升级后业务中断。
原因分析:
SLQ4单板目前网上有两种硬件版本:REV.0和VER.B。具体的配套关系
如下:
如果不配套,就会出现业务中断现象。单板单板软件FPGA硬件版本(PCB)SLQ4140、141、143、146 200REV.0SLQ4143、146、151及以后版本220VER.BSLQ4151及以后版本230VER.B10GV2升降级介绍Page
- 22. APQ1单板升级时没有配套升级E75S等单板导致业务中断
现场升级APQ1单板到5.10.04.30P03配套版本后,业务中断
问题原因
现场仅仅升级了APQ1的FPGA和单板软件,由于该PCB的APQ1升级了FPGA
后,配套的E75S、CTPT/CTPR等接口板要配套升级。
1、现场升级工程师没有仔细查看版本配套表的配套关系;
2、E75S现场无法升级,需要烧制。
解决方法:
把APQ1降级到原来版本后即可。
总结:
升级前一定要提交升级方案,并且仔细对照版本配套表确认哪些单板需要升级,
需要准备哪些工具等。10GV2升降级介绍Page
- 23. 升级环网全环同时硬复位单板导致业务长时间中断
10GV2软件升级过程中 ,所有SF64 升级完毕后,全环同时硬复位SF64板的方
法,结果复位之后多段之间出现RLOF,导致业务长时间中断,经过多次复位等处
理也没有解决,最后把该环降回原来的版本故障才恢复。
原因分析:
硬复位SF64光板后出现RLOF的原因是软件缺陷,已经在210 FPGA版本解决。
造成本次事故的主要原因并不在于软件缺陷,诚然单板软件存在质量问题,但现
场操作人员的不规范操作直接导致了业务的长时间中断。
要求:
线路板硬复位会产生RLOS等告警,如果全环线路板同时硬复位,则可能会使复用
段倒换状态异常影响业务。正常的操作是,先对一个区段的两块光板进行硬复位
后,应即时查看全环复用段状态是否倒换正常,并且在恢复到正常状态后,再对
下一个区段的线路板进行硬复位。10GV2升降级介绍Page
- 24. 本节我们主要学习了:
主机软件升降级方法
软件升降级常见问题小结Page
- 25. 内容介绍常见告警介绍
软件升降级介绍
基础维护知识
常见问题处理
Page
- 26. 基础维护知识介绍版本查询
主机版本查询
:ver;
:sys-get-nesoftver;
单板软件、PCB、FPGA查询命令
:cfg-get-bdversion:Bid;
返回结果:
BOARD-VERSION
Bid BD-TYPE RVER DVER HVER ONLINE-FALG
5 sl64 0x01 0x0a 0x001a online
Total records :1
说明:“RVER”和“DVER”组成单板软件版本 ;
HVER为两个字节(00 1a)16进制,包括PCB版本和FPGA版本。低3位为PCB版
本,高5位为FPGA版本 。Page
- 27. 计算方法:
如上例,16进制的1a转化为二进制为“00011010”。
PCB版本:低三位为PCB“010”(A),则PCB为A+1=3;
FPGA版本:高五位为FPGA“00011”(B+C,其中C为低二位“11”,B为
“000”),则FPGA为(B+1)× 100+C× 10=130 。
:cfg-get-bdverinfo;
查询的FPGA版本不需要转化,比较直观。见下面例子:
:cfg-get-bdverinfo:22;
BOARD-VER-INFO
BSP Version : 1.10
BIOS Version : 1.30
Software Version : 1.30
Logic Version : (U27)300
(其中的U27表示该芯片的位置,有些单板可能有多个FPGA)基础维护知识介绍Page
- 28. 制造信息的查询
:cfg-get-bdinfo:bid;
单板制造信息查询,查询内容包括:单板型号、条码、BOM编码、
BOM对外中文描述、BOM对外英文描述、PCB版本、生产日期、产地
。该单板下的所有的(包括扣板、配置板下的模块)软件的:芯片位置
、软件名称、软件的BOM编码、版本。
10GV2单板制造信息支持的范围:
从2002年3月以后发货的大部分单板都支持单板制造信息的查询。
T2000网管从V1R1版本就开始支持网管上查询。
基础维护知识介绍Page
- 29. 板位查询
单板物理板位查询
:cfg-get-phybd;
查询单板的物理板位,能够查询上来单板,表示单板以太网通信正常。
对于有单板软件的单板,通过查询单板软件的方法查询,对于EU08、EU16、
ACOM、APIU、ATPR、ATPT、ASTI、CTPR、CTPT、E75S、E12S、ETF8,主机与这些
单板无通讯联系,但是可以通过在位线监测其在位状态,R002版本开始支持。
(ASTI因无在位线故不能监视其在位状态) 。
常见的问题:
1、:cfg-get-phybd;查询结果中,BD-TYPE 为“null type” ;
对于有单板软件的单板而言,要么单板不在位,要么和主机的以太网通信不通
(例如ACOM板不在位或者故障);对于接口板EU08、EU16、E75S、E12S、ETF8,
其物理板类型是根据对应的处理板查询得到的,如果处理板不在位或接口板类型
与处理板不匹配,则即使插上该接口板,也会认为物理板类型为“null type。 基础维护知识介绍Page
- 30. 单板逻辑板位查询
:cfg-get-board;
查询到命令行或者网管配置的单板情况,可以和单板的实际类型不一致。
当前逻辑单板和物理板位不一致,会上报WRGBDTYPE告警。在空槽位上
配置逻辑单板,则不会上报该告警。
1、为什么显示结果中ACTIVE-STATE 不是“active”,而是“adding”或者“deleting”?
这是因为增加或者删除逻辑单板后没有下发校验。需要在网管上“校验配置”或者命令行中下发“cfg-verify”。 基础维护知识介绍物理槽位上真实板类型查询
:cfg-get-realbdtype:Bid;
输出格式:Bid: 单板槽位号;PHY-BDTYPE: 物理板类型,与cfg-get-phybd
查询的结果一致;REALBDTYPE:真实物理板类型;SUB-BDTYPE: 单板子类型。Page
- 31. 黑匣子查询
单板黑匣子查询
:nptp:bid,1,51,x,1,1,0,ff,ff,ff,ff,ff;
查询完毕后使用“shift+右键”方式对查询结果进行翻译,如果黑匣子中记录的信
息超过5条,则必须通过下多条查询命令,即把最后一个ff修改为fe反复运行。
黑匣子绕接方式记录。
其中:x代表的意义,1表示性能,2表示告警,3表示复位,4表示命令,5表示异常;
查询主机黑匣子数据:
bbquery 0x4ffffff c:\windows\desktop\bbdata.txt
1)注意没有“:”;
2)要使用黑匣子查看器查看结果;
3)R002开始支持ECC远程查询;
(NAVIGATOR5.0以上的版本均支持查询单板和主机黑匣子,但是查询单板黑匣子
时可能会不全,要求逐项查询。)基础维护知识介绍Page
- 32. 光接口描述
光接口标准通常可用:I-4.1、S-4.1、L-4.1等来表示,这些代码的含义是:
1、代码的第一位字母表示应用场合:I表示局内通信;S表示短距离局间通信;L表示长距离局间通信。
2、字母横杠后的第一位表示STM的速率等级:例如1表示STM-1;16表示STM-16。
3、第二个数字(小数点后的第一个数字)表示工作的波长窗口和所有光纤类型:1和空白表示工作窗口为1310nm,所用光纤为G.652光纤;2表示工作窗口为1550nm,所用光纤为G.652或G.654光纤;3表示工作窗口为1550nm,所用光纤为G.653光纤。
10G光接口还有如下标准:I-64.2R、S-64.2A、S-64.2B,如何理解?
对于代码R是一个附加代码,主要用于I(局内通信),表示比I还要小的标准(R是英文REDUCE的缩写)。对于I-64.2和I-64.2R光口最主要的区别就是传输距离:I-64.2为0~20KM,I-64.2R为0~2KM。
而对于S-64.A和S-64.B接口标准,A主要是表示使用的光接收端使用APD管,B表示采用PIN管,区别主要是接收灵敏度和过载点不同。基础维护知识介绍Page
- 33. 环回和告警反转的支持
环回支持
10GV2的线路板基本上不支持VC4级别的环回,只有采用新的SD607/SD543的芯片的单板,如SL16A/SLQ4A等,才支持VC4级别的环回。
10GV2线路板支持光(电)口的环回,但是不是所有单板都只持光口的内外环回的。具体支持情况见各个单板的开局指导书。
“:cfg-init-all”命令已经可以清除由“:cfg-set-loop”命令设置的环回 。
从5.10.03.20以及以后的主机,开始支持自动解环回功能,网管从T2000V1R4才开始支持。
告警反转
从5.10.02.10主机开始支持告警反转功能。
“:cfg-init-all”命令不能清除主机的告警反转设置,只能使用:alm-init-all命令才可以清除告警反转设置。基础维护知识介绍Page
- 34. 10GV2告警反转设置:
1、告警反转只针对光口或者支路板端口,设置告警反转时,必须先设置告警反转
的模式为“invmanual”或者“invauto ”,如果设置为invinhibit,表示不反转;
2、设置了告警反转模式之后,才能设置某个端口的告警反转。T2000网管从V1R2
版本开始支持10GV2的端口反转功能。
告警反转问题的处理经验:
1、建议使用T2000网管来设置告警反转,操作简单直观,设置步骤和命令行一致:
先设置反转模式,再设置告警反转;
2、一般遇到告警反转出现异常(不能正常设置或者反转后告警异常),多与主机
有关,和T2000网管关系不大。
3、告警反转的invmanual、invauto两种方式,前者属于人工反转,即端口处于
反置状态:反转后有RLOS时不上报,没有RLOS时会上报RLOS。后者属于自动方
式:有RLOS时不上报,光纤接上后,告警反转使能同时被清除,上报告警反转
清除事件,无告警上报;当再次断纤,端口有RLOS告警,告警能够正常上报。基础维护知识介绍Page
- 35. 10GV2告警反转的案例一:
T2000V1R2以及后续版本网管,网管重启或者同步告警后,10GV2
设备(主机为5.10.02.20)上设置了告警反转的端口仍然会上报
RLOS告警。
原因分析:
网管下发告警同步命令时,主机处理有问题,会把反转了的告警一同
上报,导致告警反转失效。
早期5.0平台版本以及2500+的4.5.4.16以前的主机也存在此缺陷,
10GV2在5.10.02.30P03以及后续版本解决了这个问题。可以采用升
级主机方式来解决。
基础维护知识介绍Page
- 36. 10GV2告警反转的案例二:
工程师反馈,在10GV2维护版本升级更换ACOM单板的BIOS芯片后,发现有时
候某些网元设置了告警反转的端口仍然会上报RLOS告警,告警反转失效,而有
些网元又不存在此问题!
原因分析:
1、告警自动反转自动恢复式的反转机制:端口存在RLOS告警时,对该端口进行
告警自动反转,告警消失,如果端口又正常接入,则端口告警反转自动解除。
2、需要注意的是告警反转实际上是主机上的动作,主机对单板上报的告警进行
屏蔽处理;单板上的告警依然存在,单板闪灯状态依然是隔一秒三闪。
3、当单板正常接入(单板告警消失)时,主机检测到告警消失,则把自动反转
取消;当单板再次产生RLOS告警时即可正常上报。
4、10G设备的单板告警性能数据是通过LANSWITCH总线上报的,当拔出
ACOM板时单板的告警就无法上报,此时主机会认为单板告警结束,解除单板
的告警反转。基础维护知识介绍Page
- 37. 5、主机的处理机制如下:
拔掉ACOM板后,主机首先检测会检测到COMMUN_FAIL告警(参数3
值为4,表示以太网通信不通),主机如果持续三分钟没有收到单板的告
警,(在5.10.04.30P03及以后主机版本中修改为延迟5分钟)即如果在
这三分钟内没有插上ACOM板,则认为告警结束,解除告警反转;如果
在这三分钟内把单板插回,则会继续认为告警持续,不会解除告警反
转,这就是为什么有的网元告警反转解除有的网元告警反转没解除的原
因。
该问题属于产品规格设计的问题,现场无需处理。基础维护知识介绍Page
- 38. 10GV2交叉时钟板相关说明
10GV2交叉板使用的注意事项
1、微动开关:
10GV2高阶交叉板上有2个微动开关,作用是控制单板是否在位。
当两个交叉板都在位时,只有当上下两个微动开关同时打开时,单板才会被置不
在位;当只有一个交叉板在位时,微动开关的功能将被屏蔽,即此时打开拉手条
扳手对在位没有影响。
10GV2低阶交叉板上也有微动开关,作用和高阶交叉板基本一致。
2、不要同时复位两块高阶交叉板
当两块交叉板都离线后,系统时钟消失,线路板可能工作在不正常状态,并且可
能导致错误的状态迁移,因此在一块交叉板正常后要重新复位所有线路板。基础维护知识介绍Page
- 39. 3、要求线路板跟踪的时钟和业务都在同一块高阶交叉板上
10GV2设备的线路板到两块交叉板各有一套业务和时钟总线,要求所
有线路板的业务和时钟选择同一块交叉板。
在工程和维护中要求遵守此规范。
高阶交叉板升级基本步骤:
10GV2的高阶交叉板有AXCS/EXCS/AMXS,可以通过交叉板的主备
倒换来实现交叉板的平滑升级,而保证升级过程中业务不会受影响。
详细的升级步骤请参见《10GV2交叉板升级专题 》。
基础维护知识介绍Page
- 40. 时钟和业务主备倒换
时钟倒换会触发交叉的倒换。
1、主备倒换方式:
人工倒换:微动开关倒换或命令倒换;
自动倒换:交叉板或者线路板发起,自动检测。
2、主备倒换优先级:
交叉板在位状态(微动开关倒换)->交叉板工作状态(工作好、坏)
->业务时钟总线状态(好、坏)->命令设置。
由此可见,命令倒换的优先级最低。
想一想,为什么有时候无法用命令使交叉板主备倒换? 基础维护知识介绍Page
- 41. 3、主备倒换过程
拔业务主板、扳开业务主板的微动开关、主控命令设置等都可以引
起业务主备倒换。
下面以主控命令:cfg-set-xcpswitch:21 为例说明一下倒换过程:
1)、各线路板接收主控下发的设置业务主板命令,根据此命令选择自
己的工作板;
2)、交叉板定时收集线路板的业务工作状态,确定当前的业务主板,
并进行业务同步。
3)、交叉板发现业务主备状态变化,上报主控当前的业务主备状态。基础维护知识介绍Page
- 42. 4、主备倒换相关主机命令
:cfg-set-xcpswitch;
业务倒换命令,但是需要注意这条命令只是切换业务主备并不切换时钟主备,
线路板切换业务总线,时钟总线不切换,也不发生交叉板锁相环的切换。
:cfg-get-xcpstate;
查询业务主备状态
:cfg-set-clkswitch:0,BID;
时钟倒换命令,参数0表示主板,1表示备板。线路板切换业务和时钟总线,同
时有时钟主备倒换:交叉板锁相环切换。从R002版本才开始支持。
:cfg-get-clkstate;
时钟倒换查询命令
(以上命令适用于R003以前的主机,R003以后主机命令如下页胶片所述)
基础维护知识介绍Page
- 43. :cfg-set-dpsswitch;
设置业务主备状态
:cfg-get-dpsstate:1;
查询业务或者时钟主备状态,参数1表示查询业务,2表示查询时钟。
:cfg-set-dpsswitch:1,BID;
设置业务或者时钟主备状态,参数1表示设置业务主板,2表示设置时钟主板。
5、交叉主备倒换单板相关ptp命令
:nptp:bid,d,63;
查询时钟主备情况,0为主,1为备。
:nptp:bid,d,64,1,1;
将当前时钟主板倒换为备板,同时会进行业务倒换。
:nptp:bid,9,33;//查询业务主板情况,返回0表示业务工作于左交叉板,1是右交
叉板。
:nptp:bid,9,32,0; //设置0表示业务工作于左交叉板,1是右交叉板。基础维护知识介绍Page
- 44. 10GV2主控板相关说明
更换主控功能
早期的主机版本存在2分5秒的缺陷:10G MADM更换主控板后,如果不能及时
清空配置数据或下发配置正确的文件,主机会主控板当前的配置信息下发到单
板,造成业务中断。
主控开工后,主机会启动一个2分5秒定时器,如果没有下发配置的动作,2分5秒
后定时器会超时,主机将网元数据配置就绪标志置为ready。若此时网元的当前
状态是运行态,则配置模块会把所有的交叉矩阵向单板下发一遍;若此时网元的
当前状态是安装态,则不会重新下发配置。
在5.10.02.30系列以及5.10.04.30P03及以后的版本中,对主机和交叉板进行了修
改。做到:更换上主控后,可以通过判断是主机复位还是主机更换了,然后决定
是否下发配置数据。
实现该功能时,主机必须升级到5.10.02.30系列以及5.10.04.30P03及以后的版
本,交叉板也需升级到相应的配套版本。基础维护知识介绍Page
- 45. 主控板更换注意要点
对于早期的主机,新换上的SCC板主机开工后(能连上网元即为开工
或者看主控板闪灯状态),必须在2分钟内登录到主控板,并使用
Navigator下发初始化配置的命令:cfg-init-all,注意不能再下发校验命
令;并且擦除该主控板上的数据库,命令为:
:dbms-delete-all:drdb/fdb0/fdb1; //3个库需要分别下发命令,
单独删除。
如果该网络主机已经5.10.02.30系列以及5.10.04.30P03及以后的版
本,单板也升级到该主机配套版本,则可以直接更换主控,然后下发
配置数据,不存在2分5秒的问题。
基础维护知识介绍Page
- 46. 本节我们主要学习了:
基础的维护知识(常见的查询命令、环回、告警反转的设置、交叉时钟主备倒换、主控更换功能)小结Page
- 47. 内容介绍常见告警介绍
软件升降级介绍
基础维护知识
常见问题处理
Page
- 48. 单板不对齐问题:
【问题现象】
日常巡检的过程中,在交叉板的异常黑匣子中有类似
“[ 4c]:[ 1],[2003.06.25,04:26:50]循检到单板[13]不对齐, 重新对齐!” 的信息。
【问题原因】
线路板的帧头位置相对于交叉板的搜帧范围有偏差,在交叉板定帧时无法对齐。
【问题影响】
长期的单板不对齐会导致业务中断,必须尽快处理。AXCS的135以前版本、
EXCS的129以前版本,SLQ4的138以前版本都存在单板不对齐的现象。
【判断依据】
1、对某一块单板,如果这种现象频繁而且持续出现即每隔两分钟左右出现,这
种情况一定要处理;常见问题处理Page
- 49. 单板不对齐问题:
2、对某一块单板,如果这种现象只是偶然出现一两次,或在单板硬复位起来瞬
间出现过几次,此后不再出现,则认为不是问题,可以不解决;
3、对某一块单板,如果这种现象在较短的时间(5天)之内周期性地连续出现几
次,也需要处理。
【解决方法】
1、先采用硬复位交叉板方法来解决 ;
2、如果硬复位交叉板无法解决,则当网元上没有SLQ4板可以考虑把交叉板软件
升级到新版本(AXCS为135及以后版本,EXCS为129以及以后版本);
3、如果硬复位交叉板不行,又不能升级,则建议硬复位线路板,注意硬复位对
业务的影响;
4、对于SLQ4单板,可以考虑升级交叉板和SLQ4到5.10.02.30P03及以后的配套版
本解决。
常见问题处理Page
- 50. 16244芯片问题:
【问题现象】
单板软件硬复位后ID信号失效,单板不能正常开工,需要更换单板恢复业务。该芯片失效
后,R004维护版本之前的主机上不会有告警产生。
【问题原因】
10G产品使用的仙童16244接口芯片存在磷桥失效。
【问题影响】
会导致业务中断,或者引发误操作(例如硬复位单板时,ID判断错误等)。
【判断依据】
1、16244芯片识别比较简单,在器件的表面有“16244”的标识 ;
2、该问题在2002年1月1日前生产的10G V2单板都存在问题.
3、软件判断方法见整改策略的相关资料。
【解决办法】
对存在问题的单板直接更换。R004维护版本会增加对16244芯片失效的检测告警。常见问题处理Page
- 51. 以太网通信不通导致业务中断的问题:
【问题现象】
5.10.02.20主机的10GV2网元,部分单板上报BDSTATUS,这时增加这些单板的业务时,发
生部分业务中断。
【问题原因】
R002以前的版本使用BDSTATUS表示以太网通信不通。增加业务触发主机对当前配置数据重
新校验(只要是下发校验命令),计算新的交叉连接,并将相关参数下发到单板。而此时如
果某些单板以太网通信不通,将无法接收到新的参数包括交叉连接。对于10GV2三级CLOS
矩阵体系结构,这些单板的交叉连接很可能无法与其他单板保持同步,从而引发业务中断。
【解决办法】
1、5.10.02.30以前的主机、ACOM板302以前的BIOS芯片处理以太网通信存在问题;
2、升级主机到5.10.02.30系列版本(或者5.10.04.30P03以后版本)、更换ACOM单板
BIOS芯片(302及以后版本)可以解决以太网通信不通的问题。常见问题处理Page
- 52. 级联受限导致倒换后业务中断的问题:
【问题现象】
某局网元sncp倒换后业务中断,6/10/21/22单板有sncpfail和nebdxcdif告警,:cfg-get-
matrix查到的数据与:nptp:6,8,31命令查到的交叉矩阵不一致。
【问题原因】
网元配有36个sncp和4个线性复用段,其中有些是au4-16c和au4-4c级联业务。从历史告
警中可看到有以下告警:
590170 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6-22 18:45:43 0x06 0x01 0xff 0xff 0xff
590169 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6-22 18:45:43 0x15 0x01 0xff 0xff 0xff
590168 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6-22 18:45:43 0x0a 0x01 0xff 0xff 0xff
590171 23 nebdxcdif critical end 2004-6-22 17:41:22 2004-6-22 18:45:43 0x16 0x01 0xff 0xff 0xff
从告警参数可看到,6、10号线路板和两块交叉板报了交叉矩阵不一致告警,其中,6号板
是SL64,10号板是SL16。常见问题处理Page
- 53. 级联受限导致倒换后业务中断的问题:
由于nebdxcdif告警的上报是需要最多检测10分钟才上报的,因此看17:41:22的
前10分钟内有哪些异常告警,发现在17:32:30时,有sncpfail告警:
590162 23 sncpfail critical end 2004-6-22 17:32:30
2004-6-22 17:32:30 0000 0x23 0xff 0xff 0xff
590165 23 sncpfail critical end 2004-6-22 17:32:30 2004-6-22 17:32:30 0000 0x24 0xff 0xff 0xff
从告警参数可看到,是sncp保护组35和36上报了sncp倒换失败告警。
35和36sncp保护组配置如下:
PG-ID PU-ID SRC-BID SRC-PID SRC-AU4 SRC-PATH DST-BID DST-PID DST-AU4 DST-PATH XC-LEVEL
35 work 5 1 49 0 9 1 1 0 au4-16c
35 backup 6 1 49 0 9 1 1 0 au4-16c 常见问题处理Page
- 54. 级联受限导致倒换后业务中断的问题:
PG-ID PU-ID SRC-BID SRC-PID SRC-AU4 SRC-PATH DST-BID DST-PID DST-AU4 DST-PATH XC-LEVEL
36 work 5 1 49 0 10 1 1 0 au4-16c
36 backup 6 1 49 0 10 1 1 0 au4-16c
接着,我们看到5号板1光口49通道在这段时间附近有以下告警:
590128 5 auais major end 2004-6-22 17:32:0 2004-6-22 17:32:18 0x01 0000 0x31 0xff 0xff
590167 5 auais major end 2004-6-22 17:32:30 2004-6-22 18:42:29 0x01 0000 0x31 0xff 0xff
590166 6 auais major end 2004-6-22 17:32:30 2004-6-22 18:42:29 0x01 0000 0x31 0xff 0xff
590204 6 auais major end 2004-6-22 18:44:5 2004-6-22 18:44:6 0x01 0000 0x31 0xff 0xff 常见问题处理Page
- 55. 级联受限导致倒换后业务中断的问题:
【分析结果】
1、 正常状态下,9号板1光口1通道(以下简称9.1.1,其它单板如此类推)和10.1.1均选用5.1.49业务。
2、 6月22日 17:32:0时刻,5.1.49上报SF,此时,第36 sncp保护组先发生了倒换,倒换结果为6.1.49到10.1.1,而5.1.49仍然到9.1.1。
2、 然后第35sncp保护组再发生sncp倒换,本来应该倒换成6.1.49到9.1.1,但由于10.1.1已选用了6.1.49,又由于在倒换中不能广播受限级联业务,此时6.1.49不能广播到9.1.1,因此,这时候,业务只有6.1.49到10.1.1的业务。此时主机侧已经将5.1.49到9.1.1业务删除掉了,但由于交叉矩阵计算失败,而并没有将计算后的交叉矩阵下发到线路板上。所以此时5、9号板和两块交叉板的交叉矩阵与主机侧的矩阵是不一致的,导致业务中断。常见问题处理Page
- 56. 级联受限导致倒换后业务中断的问题:
3、 在同1秒内,6.1.49也报SF了,此时,第35sncp保护组先检测到6.1.49报SF,那么第35sncp保护组恢复IDLE状态,业务矩阵变成5.1.49到9.1.1,6.1.49到10.1.1。此时,主机与单板的交叉矩阵一致。
4、 然后第36sncp保护组再检测到6.1.49报SF,本来应该倒换成5.1.49到10.1.1,但由于在倒换中,不能广播受限级联业务,那么,此时业务矩阵变为5.1.49到9.1.1,此时6、10号板和两块交叉板的交叉矩阵与主机的交叉矩阵不一致,因此此时上报了6、10、21、22单板nebdxcdif告警。
【解决方法】
本问题是由于受限级联原因导致的,将SL16更换为SL16A可解决本问题。也建议一同将SLQ4更换为SLQ4A。
常见问题处理Page
- 57. 本节我们主要学习了:
常见问题的处理方法(单板不对齐问题、16244问题、以太网通讯问题、受限级联问题)小结Page
- 58. 本课程我们主要学习了:
常见告警的产生原因和处理方法
软件升降级方法和注意事项
日常维护的基础知识
常见问题的处理方法总结Page
- 59. (本页无文本内容)