1. 程式人生 > >ASR9K MOD160板卡 Parity error 自動重啟

ASR9K MOD160板卡 Parity error 自動重啟

parity error

ASR9K 的MOD160卡自動重啟,表現為MOD160子卡上的MPA子卡上的端口均不通,出現中斷。

自動重啟的原因可能是由於Parity error 奇偶校驗錯誤


檢查ASR9K 的系統log,會發現如下日誌:

LC/0/2/CPU0:May 9 06:05:19.776 : prm_server_ty[316]: %PLATFORM-NP-3-ECC : prm_ser_check: Parity error detected: NP 0, block 0x15 (RSV), offset 67, memid 557, name KMEM_HIGH9, addr 0x00000002, bit 2147483648, ext info 0xffffffff 0xffffffff 0xffffffff 0xffffffff, action 2 (Reset)

LC/0/2/CPU0:May 9 06:05:19.781 : pfm_node_lc[304]: %PLATFORM-NP-0-NON_RECOVERABLE_SOFT_ERROR : Set|prm_server_ty[168017]|0x1008000| A non-recoverable soft error has been detected on NP0. The linecard will be rebooted.

LC/0/2/CPU0:May 9 06:05:19.787 : pfm_node_lc[304]: %PLATFORM-PFM-0-CARD_RESET_REQ : pfm_dev_sm_perform_recovery_action, Card reset requested by: Process ID: 168017 (prm_server_ty), Fault Sev: 0, Target node: 0/2/CPU0, CompId: 0x1f, Device Handle: 0x1008000, CondID: 1034, Fault Reason: A non-recoverable soft error has been detected on NP0. The linecard will be rebooted.

LC/0/2/CPU0:May 9 06:05:19.787 : syslog_dev[89]: pfm_node_lc[304]: Request Graceful Reboot via Sysmgr: Reason: pfm_dev_sm_perform_recovery_action, Card reset requested by: Process ID: 168017 (prm_server_ty), Fault Sev: 0, Target node: 0/2/CPU0, CompId: 0x1f, Device Handle: 0x1008000, CondID: 1034, Fault Reason: A non-recoverable soft error has been detected on NP0. The linecard will be rebooted.

此類Parity error 的問題在很多設備上都會出現,所有的硬件廠商都會遇到此類問題。

這類問題的原理,板卡芯片的存儲芯片由於硬件問題,或者背景輻射(包括宇宙射線,電磁幹擾等因素),導致某些存儲區域數據異常。

這些數據異常有些不重要而被系統忽略,或者可以被軟件自動修復,但不是所有這類問題都能被修復和忽略。如果異常的數據區塊是硬件故障引起的,或者該區塊處於軟件系統無法修復而且又不能忽略的情況,操作系統會重啟該芯片,或者該板卡以嘗試修復這個問題。如果是硬件問題,那無論軟件怎麽處理都不會解決該問題,只能換掉硬件,但如果不是硬件本身有問題,比如背景輻射觸發的,重啟則可以修復問題。

隨著軟件技術的增強,可以抵抗一部分Parity error造成的影響,但部分無法修復的錯誤仍是需要硬件重啟可以解決。

此類問題的處理:

自動重啟之後觀察幾天,若現象再次出現,則歸結為是硬件問題,需要做RMA;若沒有重現,則認為是出發的一次性問題,接著使用就好;另外可以更新軟件以增強抵抗Parity error問題的能力


對ASR9K來說,仍是第一時間開出case,需要收集的信息如下:

show version brief

show install active sum

admin show platform

admin show inventory

admin show diag

admin show redundancy

admin show context

show reboot history location X/X/CPU0 <<<<<故障板卡

show asic-error location X/X/CPU0 <<<<<故障板卡

show logging

將信息交給cisco TAC分析即可。

ASR9K MOD160板卡 Parity error 自動重啟