數(shù)據(jù)中心交換機(jī)是通信系統(tǒng)中的關(guān)鍵部分,本文對數(shù)據(jù)中心交換機(jī)在線診斷做了一些簡要闡述,并對技術(shù)故障維護(hù)做了分析。
《江蘇通信》1985年創(chuàng)刊,立足江蘇通信行業(yè),面向世界通信發(fā)展,報道最新科技成果,開展學(xué)術(shù)技術(shù)培訓(xùn)交流。堅持為社會主義服務(wù)的方向,堅持以馬克思列寧主義、毛澤東思想和鄧小平理論為指導(dǎo),貫徹“百花齊放、百家爭鳴”和“古為今用、洋為中用”的方針,堅持實事求是、理論與實際相結(jié)合的嚴(yán)謹(jǐn)學(xué)風(fēng),傳播先進(jìn)的科學(xué)文化知識,弘揚(yáng)民族優(yōu)秀科學(xué)文化,促進(jìn)國際科學(xué)文化交流,探索防災(zāi)科技教育、教學(xué)及管理諸方面的規(guī)律,活躍教學(xué)與科研的學(xué)術(shù)風(fēng)氣,為教學(xué)與科研服務(wù)。
對于數(shù)據(jù)中心交換機(jī)設(shè)備來說,由于所承載的應(yīng)用重要性,一旦發(fā)生故障,必須要能夠快速定位及解決問題。但是面對當(dāng)前異常復(fù)雜的數(shù)據(jù)中心組網(wǎng)拓?fù)湟约熬S護(hù)定位手段的缺失,如何才能應(yīng)對這一挑戰(zhàn)?本文就此問題作出一些技術(shù)分析,在線診斷分析當(dāng)前設(shè)備的運行情況,對故障和異常能自動發(fā)現(xiàn)、自動恢復(fù)、自動隔離。滿足用戶對設(shè)備更高的可維護(hù)診斷需求。
一、 概述
1. 診斷維護(hù)需求
數(shù)據(jù)中心交換機(jī)設(shè)備良好的可維護(hù)可診斷體現(xiàn)在多個方面,主要關(guān)注于對器件、業(yè)務(wù)的故障檢測與響應(yīng):
l 器件的可靠性檢測:器件的可靠是整個設(shè)備可靠的基礎(chǔ),只有每個器件可靠了,才能保證整個系統(tǒng)的可靠運行。器件作為獨立的角色,針對器件的檢測非常簡單和也非常有效。
l 業(yè)務(wù)的可靠性檢測:交換機(jī)設(shè)備的主要功能就是業(yè)務(wù)轉(zhuǎn)發(fā)功能。在某些硬件故障情況下,往往業(yè)務(wù)端口仍處于UP狀態(tài),但設(shè)備卻無法正常轉(zhuǎn)發(fā)報文。在這種情況下,加上組網(wǎng)的復(fù)雜度,如遇嚴(yán)重故障,維護(hù)人員很難感知故障,更無法快速確定到故障點。這就需要業(yè)務(wù)可靠性檢測功能,及時的發(fā)現(xiàn)和處理業(yè)務(wù)轉(zhuǎn)發(fā)的故障。
l 故障的自動分析、定位和恢復(fù)功能:在目前復(fù)雜的組網(wǎng)情況下,找到一個故障點,并明確故障所在的單板往往需要幾十分鐘甚至幾個小時的時間,這無疑對維護(hù)人員來說是場噩夢。如果設(shè)備能自動分析、定位和恢復(fù)故障,就可以有效降低維護(hù)的人力投入,同時極大的減少了故障時對業(yè)務(wù)的影響。
2. 設(shè)想中的診斷維護(hù)架構(gòu)
要實現(xiàn)診斷維護(hù)的這些需求,可以準(zhǔn)備一整套的診斷架構(gòu),基于該架構(gòu)可以方便的實現(xiàn)整體的診斷維護(hù)功能。該診斷架構(gòu)主要分成三部分。如圖1所示,從下到上,首先是通過對器件、單板、業(yè)務(wù)的檢測來及時發(fā)現(xiàn)故障,然后把故障檢測結(jié)果報告給在線智能診斷分析模塊對故障進(jìn)行分析、深入定位,最后智能診斷分析模塊根據(jù)分析的結(jié)果進(jìn)行故障保護(hù)性處理,包括把故障告警通知用戶維護(hù)人員,并進(jìn)行恢復(fù)和保護(hù)性倒換。
二、 在線檢測——發(fā)現(xiàn)故障
交換機(jī)可以通過在線器件故障檢測功能在設(shè)備運行時,定時不斷的掃描各主要器件的(如單板電源模塊、時鐘、晶振、CPLD、內(nèi)存、轉(zhuǎn)發(fā)芯片等)運行情況,一旦出現(xiàn)器件故障,及時通知到智能分析模塊進(jìn)行保護(hù)處理。其器件檢測基于軟硬件的結(jié)合,快速、可靠。以對時鐘的檢測為例,時鐘作為硬件轉(zhuǎn)發(fā)芯片的工作基礎(chǔ),如果出現(xiàn)偏差和停止輸出會造成整個轉(zhuǎn)發(fā)芯片無法工作。可以對時鐘輸出信號提取一路出來通過CPLD在線實時監(jiān)控,當(dāng)時鐘出現(xiàn)過大偏差或停止輸出時,就主動觸發(fā)中斷通知CPU的智能診斷模塊進(jìn)行保護(hù)性處理。
而對于交換機(jī)的業(yè)務(wù)板、主控板在內(nèi)的各種單板檢測而言,這些單板都有獨立的CPU,互相間的通訊通過板間通訊通道進(jìn)行,是完全獨立的一套系統(tǒng)。在這種分布式的架構(gòu)下,設(shè)備需要快速的感知各單板的運行狀態(tài)和故障情況,確保業(yè)務(wù)能選擇最優(yōu)路徑轉(zhuǎn)發(fā)。高端交換機(jī)可以使用獨立的檢測平面,定時快速的掃描各單板的運行、業(yè)務(wù)處理情況,對處于異常的單板根據(jù)故障通知智能分析模塊及時進(jìn)行保護(hù)性處理。例如:在分布式設(shè)備中,有很多的數(shù)據(jù)報文發(fā)送和處理都是在業(yè)務(wù)處理板上進(jìn)行的,設(shè)備會自動根據(jù)單板的故障狀態(tài),對業(yè)務(wù)處理優(yōu)選正常運行單板進(jìn)行處理,確保業(yè)務(wù)處理的高效和正確。
交換機(jī)最基礎(chǔ)的功能是正確轉(zhuǎn)發(fā)業(yè)務(wù)報文。在線業(yè)務(wù)檢測就是在線檢測整個業(yè)務(wù)轉(zhuǎn)發(fā)通道是否正常,如果正常,表明整個系統(tǒng)的轉(zhuǎn)發(fā)功能是正常的。如果出現(xiàn)異常,就要及時通知智能分析模塊,由智能分析模塊來定位出故障點,并進(jìn)行相應(yīng)的保護(hù)處理。例如:當(dāng)某塊業(yè)務(wù)板的某個轉(zhuǎn)發(fā)芯片出現(xiàn)轉(zhuǎn)發(fā)故障,業(yè)務(wù)通道檢測功能就能快速的感知到其它轉(zhuǎn)發(fā)芯片到該芯片的業(yè)務(wù)通道故障,通知智能診斷分析模塊對該芯片進(jìn)行保護(hù)處理。例如可以通過關(guān)閉該芯片上對應(yīng)的物理端口,把流量切換到備份的端口以快速的恢復(fù)業(yè)務(wù)。
三、 在線智能診斷分析技術(shù)——分析故障
通常交換機(jī)設(shè)備出現(xiàn)故障時,往往只能提示用戶出現(xiàn)故障,卻無法進(jìn)一步深入的判定問題所在和保護(hù)處理。可以通過一整套的在線智能診斷技術(shù),根據(jù)故障的原因和用戶配置的情況,實現(xiàn)告警、故障隔離、故障嘗試恢復(fù)等處理。
如圖1中間層所示,在線智能診斷分析模塊會自動的收集各種檢測的結(jié)果,對出現(xiàn)異常的檢測結(jié)果將交由深入探測功能模塊進(jìn)一步深入分析和定位,判斷出故障點,通知用戶更換故障單板,并對故障實施隔離、嘗試恢復(fù)等動作,對業(yè)務(wù)進(jìn)行保護(hù)性倒換。
例如:某業(yè)務(wù)板出現(xiàn)故障,造成報文轉(zhuǎn)發(fā)丟包。這時,業(yè)務(wù)通道故障檢測發(fā)現(xiàn)轉(zhuǎn)發(fā)異常,將故障報告給在線智能診斷模塊,該模塊會通知深入探測診斷功能模塊啟動對各業(yè)務(wù)單板的深度探測功能,最終定位到故障點為某塊故障單板后,在線智能診斷模塊會把該業(yè)務(wù)板隔離,去除該業(yè)務(wù)板對轉(zhuǎn)發(fā)的影響,恢復(fù)業(yè)務(wù)。同時,告警提示用戶更換該業(yè)務(wù)板。
四、 在線保護(hù)技術(shù)——處理故障
在線智能診斷分析在分析到故障后,會根據(jù)當(dāng)前系統(tǒng)的配置情況和故障原因,進(jìn)行一系列動作進(jìn)行故障的自動恢復(fù)處理(如圖1最上層所示),其中必須要實現(xiàn)關(guān)閉端口和單板隔離。
1. 關(guān)閉端口(故障端口自動備份切換技術(shù))
作為數(shù)據(jù)中心組網(wǎng)中,在組網(wǎng)規(guī)劃時往往會考慮通過跨板鏈路聚合、IRF/VSS等技術(shù)提供冗余備份保護(hù)。當(dāng)設(shè)備出現(xiàn)硬件轉(zhuǎn)發(fā)故障時,往往端口依然是是UP狀態(tài),因此對端設(shè)備會認(rèn)為該端口為可用端口,流量照常往該端口轉(zhuǎn)發(fā),結(jié)果造成冗余備份保護(hù)無法生效。
結(jié)合在線診斷檢測和分析功能,設(shè)備可以在檢測到硬件或者轉(zhuǎn)發(fā)故障時,根據(jù)定位到的故障點,檢查故障影響的用戶端口,如果該用戶端口存在備份鏈路,則自動關(guān)閉該用戶端口,使對端的流量倒換到備份鏈路上。該技術(shù)結(jié)合IRF/VSS等跨框聚合可以更加完善的提供冗余備份功能。
如圖2所示,用戶在IRF設(shè)備上配置PortA和PortC聚合,PortB和PortD聚合。服務(wù)器A和服務(wù)器B間的流量如上圖所示。在PortA、PortB端口所在單板出現(xiàn)轉(zhuǎn)發(fā)故障時,此時由于仍為UP端口,交換機(jī)A和交換機(jī)B仍繼續(xù)執(zhí)行負(fù)載分擔(dān)把流量發(fā)送給PortA、PortB,但實際情況卻是因轉(zhuǎn)發(fā)故障造成紅色的流量全部在交換機(jī)上被丟棄。
現(xiàn)在,在配置了故障端口自動備份切換功能后。智能診斷分析模塊在定位到該單板故障后,分析出該板的PortA、PortB端口存在備份端口PortC、PortD,則對PortA和PortB執(zhí)行管理DOWN,交換機(jī)A和交換機(jī)B即可以感知到端口變化,只把流量發(fā)送到PortC和PortD端口上,即流量只走綠色的路徑轉(zhuǎn)發(fā),兩臺服務(wù)器間的流量恢復(fù)轉(zhuǎn)發(fā)正常。
2. 單板隔離技術(shù)
單板隔離是將指定單板從業(yè)務(wù)平面中隔離出來,不再參與業(yè)務(wù)轉(zhuǎn)發(fā)。被隔離單板仍在管理平面中,可對其進(jìn)行重啟等基本操作。交換機(jī)設(shè)備在出現(xiàn)硬件單板故障時可以自動的進(jìn)行故障單板隔離處理,也可以手工命令對故障單板來進(jìn)行隔離,并可將單板隔離后進(jìn)行現(xiàn)場診斷,方便準(zhǔn)確、深入的定位分析故障原因。
當(dāng)對線卡板設(shè)置隔離后,該線卡板的所有業(yè)務(wù)端口被管理關(guān)閉,不會有報文從外部進(jìn)入該板;線卡板對應(yīng)的交換網(wǎng)端口也被關(guān)閉,不會有報文從其他線卡板轉(zhuǎn)發(fā)過來;從而使該板從轉(zhuǎn)發(fā)業(yè)務(wù)中脫離出來。
當(dāng)對內(nèi)部交換單板設(shè)置隔離后,內(nèi)部交換單板上的交換網(wǎng)芯片被設(shè)置為“不可達(dá)”,從而該網(wǎng)板從轉(zhuǎn)發(fā)業(yè)務(wù)中脫離出來。高端數(shù)據(jù)中心設(shè)備一般具有多塊內(nèi)部交換單板,內(nèi)部交換單板間互為冗余備份,在對部分內(nèi)部交換單板的故障隔離后,不會影響整體轉(zhuǎn)發(fā)功能。在檢測到內(nèi)部交換單板故障后,如果會自動進(jìn)行該單板的隔離處理,可以確保故障單板不影響業(yè)務(wù)轉(zhuǎn)發(fā)。
五、 結(jié)束語
由以上分析可知,對于數(shù)據(jù)中心交換機(jī)設(shè)備而言,其診斷維護(hù)功能的需求發(fā)展趨勢是自動發(fā)現(xiàn)故障、自動隔離故障、自動故障恢復(fù),做到設(shè)備無需維護(hù),機(jī)房無需值守。這尤其對于數(shù)據(jù)中心,以及其中的核心交換機(jī)設(shè)備的運維效率與效果意義重大。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >