電力信息網(wǎng)絡(luò)故障自動探測策略論文
摘要:電力企業(yè)的信息網(wǎng)絡(luò)承載著日常生產(chǎn)辦公的重要業(yè)務(wù),縣級公司至地市公司的信息主干網(wǎng)絡(luò)一般采用一主一備的雙通道模式,遇故障時通道自動倒換成為提高網(wǎng)絡(luò)可靠性的重要因素。為了解決公司信息網(wǎng)絡(luò)出現(xiàn)的故障發(fā)生時無法識別、倒換的問題,文章通過探尋原因,提出采用網(wǎng)絡(luò)質(zhì)量分析(NetworkQualityAnalyzer,NQA)、雙向轉(zhuǎn)發(fā)檢測(BidirectionalForwardingDetection,BFD)、Track等故障探測策略來解決路由黑洞問題,實現(xiàn)了故障時的自動檢測,能夠預(yù)防由于單點故障造成的網(wǎng)絡(luò)中斷事件。
關(guān)鍵詞:電力信息網(wǎng)絡(luò);雙通道;自動倒換;故障探測
引言
隨著電力行業(yè)由“企業(yè)信息化”向“信息化企業(yè)”的轉(zhuǎn)變,信息系統(tǒng)與企業(yè)的生產(chǎn)經(jīng)營聯(lián)系更加緊密[1]。企業(yè)信息網(wǎng)絡(luò)作為生產(chǎn)辦公的重要網(wǎng)絡(luò),龐大的用戶群體、廣泛的業(yè)務(wù)應(yīng)用對其安全性、可靠性提出了嚴(yán)峻的考驗[2]?h級供電公司至地市公司信息主干網(wǎng)絡(luò)是與上級單位進(jìn)行信息交互的唯一通道,是公司信息網(wǎng)絡(luò)的最核心部分。為提高網(wǎng)絡(luò)可靠性,一般采用雙通道冗余配置,鏈路狀態(tài)的探測和鏈路狀態(tài)的快速自動倒換成為亟需解決的問題[3]。當(dāng)主用鏈路突然出現(xiàn)各種類型的故障時,網(wǎng)絡(luò)能夠識別并自動切換至備用鏈路,保證在運(yùn)業(yè)務(wù)不發(fā)生中斷,以上這些是實現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)健壯性的重要挑戰(zhàn)[4-6]。基于日常運(yùn)維經(jīng)驗及從對運(yùn)營商、各企業(yè)網(wǎng)的調(diào)研中發(fā)現(xiàn),網(wǎng)絡(luò)鏈路故障時經(jīng)常發(fā)生無法自動倒換這一缺陷,且容易被忽視,對在運(yùn)業(yè)務(wù)造成了嚴(yán)重影響。為了解決這一問題,文中對故障探測策略的分析和應(yīng)用進(jìn)行了探討。
1信息網(wǎng)絡(luò)概況及面臨的問題
該信息網(wǎng)絡(luò)為“口”字形雙鏈路組網(wǎng)(見圖1)。因電力企業(yè)豐富的光傳輸鏈路資源,光傳輸以太鏈路的應(yīng)用相當(dāng)廣泛[7],光傳輸以太鏈路結(jié)構(gòu)如圖2所示。信息網(wǎng)絡(luò)主通道承載在光傳輸以太鏈路上,上聯(lián)至ATM廣域網(wǎng);備通道為光纖直連通道,上聯(lián)至數(shù)據(jù)通信網(wǎng)。信息網(wǎng)絡(luò)與廣域網(wǎng)之間的2臺邊界路由器H3CSR1、H3CSR2通過開放式最短路徑優(yōu)先(OpenShortestPathFirst,OSPF)協(xié)議設(shè)置cost值來控制主備優(yōu)先級;均寫入缺省路由指向上一級廣域網(wǎng),其通過采用下發(fā)缺省路由的方式,將缺省路由通告到整個OSPF域中。對于IP網(wǎng)絡(luò)來說,Ethernet接口的故障檢測時延沒有保證,尤其是當(dāng)網(wǎng)絡(luò)設(shè)備間以太鏈路經(jīng)過一些傳送設(shè)備時,鏈路的狀態(tài)有時無法反映網(wǎng)絡(luò)設(shè)備的狀態(tài)。靜態(tài)路由具有可靠、安全、穩(wěn)定、高效等特性,比較適用于接入路由至核心路由的級聯(lián),但其缺少網(wǎng)絡(luò)動態(tài)變化的反應(yīng)能力[8]。因為SR1上存在缺省路由,當(dāng)至上級的遠(yuǎn)端鏈路中斷時,由于中間的光傳輸設(shè)備的原因,SR1的G1/0/0端口一直up,造成SR1上這條缺省路由一直生效,因此無法倒換到備用通道。即導(dǎo)致所謂的“路由黑洞”問題[9]。根據(jù)信息網(wǎng)絡(luò)雙出口設(shè)計的不同,出現(xiàn)的問題也多種多樣,所需采用的探測策略也不同。下面針對雙通道自動倒換的需求,對幾種典型探測方法進(jìn)行討論。
2幾種故障自動探測策略的技術(shù)特征
隨著IP網(wǎng)絡(luò)多業(yè)務(wù)的應(yīng)用和高實時性需求,網(wǎng)絡(luò)對故障的反應(yīng)速度成為衡量網(wǎng)絡(luò)可靠性的重要參數(shù)。傳統(tǒng)的慢hello機(jī)制的方法已暴露出明顯的缺陷,無法滿足當(dāng)前IP業(yè)務(wù)應(yīng)用的飛速發(fā)展。各種IP協(xié)議,如OSPF、中間系統(tǒng)到中間系統(tǒng)(IntermediateSystemtoIntermediateSystem,ISIS)對于故障的反應(yīng)速度一般需要1s以上。網(wǎng)絡(luò)接入側(cè)所使用的虛擬路由冗余協(xié)議(VirtualRouterRedundancyProtocol,VRRP)等冗余熱備方法,故障切換時間也需1s以上,對于電信級的網(wǎng)絡(luò)而言,難以達(dá)到50ms內(nèi)切換的標(biāo)準(zhǔn)。接入網(wǎng)絡(luò)與核心網(wǎng)絡(luò)級聯(lián)通常采用的靜態(tài)路由協(xié)議,更是不具備鏈路狀態(tài)反應(yīng)能力,只要端口狀態(tài)正常,則路由條目一直生效,故障發(fā)生時無法切換。在這種情況下,一些故障探測策略應(yīng)運(yùn)而生,可以有效彌補(bǔ)現(xiàn)實網(wǎng)絡(luò)中存在的不足。2.1BFD技術(shù)雙向轉(zhuǎn)發(fā)檢測(BidirectionalForwardingDetection,BFD)是一種通用的協(xié)議,獨(dú)立于上層應(yīng)用程序,無關(guān)通道類型,采用了一種簡單的hello機(jī)制,可以達(dá)到毫秒級的故障檢測速度。BFD是在上層協(xié)議的基礎(chǔ)上建立BFD會話,不具備自己的發(fā)現(xiàn)機(jī)制[10]。通過發(fā)送、接收BFD會話的過程,判斷雙方之間的狀態(tài)并確定故障的發(fā)生,與光傳輸中的“LOS”信號具有相似的機(jī)理。BFD具有靈活的特點:BFD可以實現(xiàn)單跳檢測,也可以實現(xiàn)多跳檢測;BFD的檢測周期可以根據(jù)實際需要進(jìn)行設(shè)置;BFD可以實現(xiàn)與多種上層協(xié)議的聯(lián)合使用。1)BFD與快速重路由(FastReroute,F(xiàn)RR)的聯(lián)合使用。在網(wǎng)絡(luò)規(guī)模較大或結(jié)構(gòu)較為復(fù)雜的網(wǎng)絡(luò),當(dāng)發(fā)生故障時,路由的計算、收斂耗時較長。FRR是網(wǎng)絡(luò)中指定的備份路由,當(dāng)故障發(fā)生時可以實現(xiàn)快速切換。BFD與FRR的聯(lián)合使用,更加進(jìn)一步加快網(wǎng)絡(luò)的故障響應(yīng)速度,大大縮短故障時間。2)BFD與內(nèi)部網(wǎng)關(guān)協(xié)議(InteriorGatewayProtocol,IGP)聯(lián)合使用。ISIS的故障檢測時間大約為1s,OSPF的故障檢測時間大約為2s。而BFD的快速故障檢測速度與ISIS、OSPF的聯(lián)動,可以將故障檢測時間降至毫秒級。3)在網(wǎng)絡(luò)邊緣部署B(yǎng)FD。接入網(wǎng)絡(luò)與主干網(wǎng)絡(luò)的互聯(lián)一般通過2臺出口交換機(jī)或路由器設(shè)備,利用VRRP提高雙出口網(wǎng)絡(luò)的可靠性。而通過BFD探測雙出口鏈路狀態(tài),可以不必等到VRRP自身感知到鏈路故障這段耗時,提前通過BFD聯(lián)動VRRP實現(xiàn)故障倒換[11-12]。當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時,BFD的檢測原理如圖3所示。1)BFD在會話中監(jiān)測到設(shè)備或鏈路故障;2)BFD鄰居會話被拆除;3)BFD將鄰居不可達(dá)信息通知給本地上層協(xié)議;4)上層協(xié)議鄰居關(guān)系被中止,具備條件時啟用備用路徑。2.2NQA技術(shù)網(wǎng)絡(luò)質(zhì)量分析(NetworkQualityAnalyzer,NQA)適用于H3C等系列設(shè)備,可以實現(xiàn)對網(wǎng)絡(luò)丟包率、網(wǎng)絡(luò)時延、網(wǎng)絡(luò)抖動等性能的監(jiān)測。通過測試報文的周期發(fā)送,實現(xiàn)對網(wǎng)絡(luò)狀態(tài)和服務(wù)質(zhì)量的精確測量,為用戶提供了反映網(wǎng)絡(luò)質(zhì)量的系列參數(shù)。NQA可以實現(xiàn)與Track的聯(lián)動。NQA將自身監(jiān)測到的結(jié)果反饋給Track,觸發(fā)Track與應(yīng)用程序的聯(lián)動,實現(xiàn)對網(wǎng)絡(luò)狀態(tài)變化的快速反應(yīng)。NQA可以支持多種網(wǎng)絡(luò)測試類型,并支持多測試組的并發(fā),如:可支持ICMP-echo、FTP、TCP、UDP-echo等多達(dá)11種測試類型。以ICMP-echo的應(yīng)用舉例:NQA根據(jù)設(shè)定的探測周期定期向目的地址發(fā)送ICMP-echorequest報文,通過對端回復(fù)的ICMP-echoreply報文的情況,計算得出響應(yīng)時間、丟包率等關(guān)鍵參數(shù),為用戶提供該網(wǎng)絡(luò)的服務(wù)質(zhì)量情況,從而快速切換網(wǎng)絡(luò)。NQA目前實現(xiàn)了與多種應(yīng)用程序的聯(lián)動,如VRRP、策略路由(PolicyBasedRouting,PBR)、靜態(tài)路由等。2.3IPSLA技術(shù)互聯(lián)網(wǎng)服務(wù)等級協(xié)議(InternetProtocolService-LevelAgreement,IPSLA)適用于Cisco設(shè)備,一般適用于Cisco企業(yè)版IOS等。用法與NQA有極大相似性。IPSLA是主動網(wǎng)絡(luò)測量手段,采用了一種動態(tài)流量監(jiān)測方法;可用的測量類型和測量次數(shù)非常豐富;也是采用定期測試的方法。其測試原理可比喻成一個實際的人,通過ping、www、telnet等訪問某目的地址,并以此判斷網(wǎng)絡(luò)的運(yùn)行狀況?蓪崿F(xiàn)與CiscoTrack的聯(lián)動。通過Track,將IPSLA的探測結(jié)果影響到熱備份路由協(xié)議(HotStandbyRouterProtocol,HSRP)、PBR、浮動靜態(tài)路由等協(xié)議,實現(xiàn)故障的快速切換。2.4Track技術(shù)Track的用途是實現(xiàn)聯(lián)動功能(見圖4)。Track聯(lián)動功能是聯(lián)系起應(yīng)用模塊和監(jiān)測模塊的橋梁。利用上文介紹的BFD、NQA、IPSLA等監(jiān)測模塊進(jìn)行檢測,通過Track的橋梁作用,將檢測結(jié)果反饋給應(yīng)用模塊,促使應(yīng)用程序的進(jìn)一步執(zhí)行。例如:在靜態(tài)路由、Track、NQA間建立聯(lián)動。當(dāng)NQA監(jiān)測到靜態(tài)路由下一跳地址不可達(dá)時,立即觸發(fā)Track,將靜態(tài)路由條目置為無效。通過這樣的聯(lián)動,實現(xiàn)了靜態(tài)路由有效性的實時判斷,克服了靜態(tài)路由無動態(tài)反應(yīng)能力的不足。
3故障檢測與保護(hù)的解決方案
3.1應(yīng)用場景A針對上文所述的該公司信息網(wǎng)絡(luò)存在的問題,在SR1上采用Track+NQA+靜態(tài)路由的方式,當(dāng)主通道側(cè)光傳輸以太鏈路中斷時,雖然G1/0/0端口up,但經(jīng)測試IP:10.b.b.b不可達(dá),這時,SR1的缺省路由失效,實現(xiàn)倒換至備通道。雖然主通道故障時,數(shù)據(jù)的發(fā)送倒換至備用通道,但采用下發(fā)缺省路由的方式,已將缺省路由通告到整個OSPF域中。ATM廣域網(wǎng)Iproute-static0.0.0.00.0.0.010.b.b.b(cost20)的缺省路由條目,在其老化時間內(nèi),仍舊向主通道返回數(shù)據(jù),收發(fā)路徑不一致,網(wǎng)絡(luò)仍舊中斷。因此在網(wǎng)絡(luò)設(shè)計之初,應(yīng)全面考察鏈路條件,當(dāng)網(wǎng)絡(luò)鏈路存在大量光傳輸設(shè)備時,也要盡量避免完全依賴探測的輔助手段,應(yīng)優(yōu)先考慮采用動態(tài)路由協(xié)議組網(wǎng)。以上問題通過改為OSPF協(xié)議并聯(lián)動BFD,得到了更合理的解決。3.2應(yīng)用場景B某縣信息主干網(wǎng)絡(luò)如圖5所示。圖5中橫線上端為全省數(shù)據(jù)通信網(wǎng)廣域網(wǎng),信息網(wǎng)絡(luò)為其中一個OAMIS的VPN業(yè)務(wù);橫線下端為某縣級供電公司信息網(wǎng)絡(luò)。信息網(wǎng)絡(luò)與廣域網(wǎng)之間的2臺邊界路由器H3CSR1、H3CSR2,仍通過OSPF設(shè)置cost值來控制主備優(yōu)先級;均寫入缺省路由指向上一級廣域網(wǎng),其通過采用下發(fā)缺省路由的方式,將缺省路由通告到OSPF域。數(shù)據(jù)通信網(wǎng)CiscoR1、CiscoR2分別配置靜態(tài)路由指向下方2臺邊界H3CSR1、H3CSR2路由器。
4結(jié)語
信息網(wǎng)絡(luò)雙出口故障自動倒換是保證信息網(wǎng)絡(luò)安全可靠運(yùn)行的重要因素。而在進(jìn)行網(wǎng)絡(luò)的組網(wǎng)設(shè)計時,網(wǎng)絡(luò)工程師往往采用經(jīng)驗方法,忽視做全面的故障倒換測試。因此在網(wǎng)絡(luò)設(shè)計之初,應(yīng)全面考察鏈路及設(shè)備條件,因地制宜。本文就企業(yè)信息網(wǎng)絡(luò)雙出口自動倒換遇到的實際問題,引出了故障自動探測的幾種策略并進(jìn)行了技術(shù)原理介紹。通過2個實際場景,舉例介紹了Track+NQA(IPSLA)+靜態(tài)路由在縣級信息網(wǎng)絡(luò)雙出口中的應(yīng)用及如何巧妙地解決自動倒換問題。
【電力信息網(wǎng)絡(luò)故障自動探測策略論文】相關(guān)文章:
電子信息技術(shù)在電力自動化系統(tǒng)的應(yīng)用的論文03-19
電力經(jīng)濟(jì)營銷管理策略轉(zhuǎn)變分析論文02-13
mba論文:試論電力市場的營銷策略選擇12-01
電力企業(yè)營銷項目管理策略論文02-21
關(guān)于電力系統(tǒng)及其自動化論文02-19
電力工業(yè)中信息通信技術(shù)應(yīng)用論文03-17
信息技術(shù)在電力企業(yè)中的應(yīng)用論文02-20
- 相關(guān)推薦