- 相關推薦
計算機網(wǎng)絡故障管理智能化研究
[論文摘要] 故障是網(wǎng)絡的管理最基本、最重要的功能。文中針對網(wǎng)絡故障管理進行研究,并提出了網(wǎng)絡故障管理智能化的方法,為網(wǎng)絡故障智能化的進一步發(fā)展奠定了基礎。
[論文關鍵詞] 網(wǎng)絡 故障 智能化 事件知識庫
一個網(wǎng)絡管理系統(tǒng)有五大功能域:故障管理、配置管理、性能管理、計費管理和安全管理其中,故障管理是最基本,也是最重要的功能。目的是保證網(wǎng)絡能夠連續(xù)可靠地運行。如果網(wǎng)絡服務意外中止,將會對生產、生活造成很大影響,這就需要一套科學的故障管理策略,及時發(fā)現(xiàn)故障、排除故障。
現(xiàn)在一些網(wǎng)管軟件趨向于將專家系統(tǒng)等人工智能技術引入到網(wǎng)絡故障診斷和排除中。提高網(wǎng)絡故障的智能水平有助于網(wǎng)絡高效、可靠地運行。網(wǎng)絡管理的智能化也是發(fā)展的必然趨勢。為此本文針對網(wǎng)絡故障智能化管理進行研究,并提出了建立事件知識庫提高故障管理的智能水平的方法,為網(wǎng)絡故障智能化的進一步發(fā)展奠定了基礎。
1. 計算機網(wǎng)絡故障管理技術研究
(1) 故障管理概述
故障是指軟、硬件的缺陷;錯誤則是軟硬件的不正確輸出;失效是指所有和某故障有關的錯誤造成的網(wǎng)絡的非正常運行。網(wǎng)絡故障按生命周期可分為永久故障、暫時故障和瞬間故障三類;按故障對網(wǎng)絡造成的空間失效范圍的大小,可將失效分為四類:任務失效、基本網(wǎng)絡部件失效、 結點失效和子網(wǎng)失效。故障管理的主要任務是及時發(fā)現(xiàn)并排除網(wǎng)絡故障。一般說來,故障管理包括以下幾個內容:故障監(jiān)測和捕獲故障產生相關的事件和報警;定位分析故障、記錄故障日志;如有可能排除故障等。
(2) 故障管理的類型
故障類型指的是具有某種特征的故障的分類。通常我們可以根據(jù)故障發(fā)生來源的不同,將它們劃分為兩大類,即硬故障(hard errors)和軟故障(soft errors)。
硬故障是指網(wǎng)絡的硬件設備在工作過程中產生的各種錯誤。這些錯誤與該設備的作用有密切關系,網(wǎng)絡系統(tǒng)的復雜性也正是由于設備的多樣性而體現(xiàn)出來的。根據(jù)這網(wǎng)絡設備的作用,我們也可以將故障簡單分為以下三類:
、龠B接設備故障
這種故障的現(xiàn)象主要是網(wǎng)絡的連接出現(xiàn)問題,也可以稱為通路故障。造成故障的原因可能是電纜線斷開、收發(fā)器斷開或不能正常工作以及其它連接設備間的接口出問題等等。根據(jù)這類故障的來源不同,我們又可以將該類型的故障細分為線路故障、網(wǎng)絡接口故障、收發(fā)器故障、路由器故障等等,該類故障是故障管理的最主要對象。
、诠蚕碓O備故障
這種故障的表現(xiàn)是用于資源共享的設備出現(xiàn)問題,不能提供或享受所需的服務。同樣,該類型的故障也可以細分為服務器故障(打印機故障、文件服務器故障等)、工作站故障等等。
③其它設備故障。包括電源故障、監(jiān)控器故障、測試儀故障、分析儀故障等等。
軟故障是指網(wǎng)絡系統(tǒng)軟件運行出錯。軟故障的發(fā)現(xiàn)和處理是在管理過程中逐漸被人們所認識的,因為軟件屬于一種無形的東西,問題的表現(xiàn)不如硬件那么直觀。從這個意義上看,軟故障的識別和診斷更加困難。故障管理中所處理的軟故障主要針對與網(wǎng)絡通訊和服務有關的系統(tǒng)軟件,它可以直接根據(jù)網(wǎng)絡軟件來劃分,包括通訊協(xié)議軟件故障、網(wǎng)絡文件系統(tǒng)(FNS)故障、文件傳輸軟件故障、域名服務系統(tǒng)(DNS )等等,其中通訊協(xié)議軟件故障是系統(tǒng)研究的重點。這種錯誤通常是在協(xié)議軟件運行時遇到某個異常條件(如緩沖隊列滿)或協(xié)議軟件本身未提供可靠機制而導致傳輸失敗,報文丟失。
故障類型并不是一成不變的,隨著網(wǎng)絡在復雜性和規(guī)模上提高,網(wǎng)絡故障管理的要求也在不斷增加。新的技術、設備的應用使故障的類型、故障原因、故障源等各方面都發(fā)生了變化,這就要求故障管理系統(tǒng)必須增加新的內容。
(3)故障管理的功能
故障管理的根本目標在于排除網(wǎng)絡中出現(xiàn)的各種故障,達到這一目標要求系統(tǒng)至少必須具備檢測、隔離和糾正故障的能力。
故障檢測(detection)是指對系統(tǒng)的性能和狀態(tài)進行檢查和測試,根據(jù)結果和一定的識別規(guī)則判斷系統(tǒng)是否故障。故障檢測要求管理系統(tǒng)監(jiān)視網(wǎng)絡的工作,考查網(wǎng)絡的狀態(tài)及其變化,一旦發(fā)現(xiàn)系統(tǒng)出現(xiàn)故障馬上進行報警。
故障隔離(isolation)是指確定故障發(fā)生的位置,通俗地說就是指出誰發(fā)生了故障,如哪個子網(wǎng)、哪個設備或者設備的哪個部件,對于軟故障則指明哪個系統(tǒng)出了問題。由于網(wǎng)絡是一個復雜的系統(tǒng),故障類型、原因、故障源多種多樣,而且不同故障的表現(xiàn)可能完全相同,這就導致了故障隔離的復雜性。隔離系統(tǒng)應當盡可能地縮小故障源的范圍。
故障糾正(correction)是指糾正所發(fā)生的錯誤,恢復系統(tǒng)的正常工作。故障糾正建立在前兩者的基礎之上,目前所采取的手段除了進行硬件維修、系統(tǒng)重啟、一定程度的恢復外,還包括一些非技術性的活動,如人員的使用和技術培訓以及設備生產廠商的支持等。
(4)影響故障管理的因素
與網(wǎng)絡管理一樣,故障管理也必須考慮三方面的因素:過程、設備和工具、人員。成功的故障管理策略是這三者的完整結合,而不僅僅是其中的某一個方面。
過程主要指為實現(xiàn)故障管理功能而進行的操作,下一節(jié)介紹的內容就屬于故障管理的過程。了解管理的一般過程是開發(fā)一個實用的故障管理系統(tǒng)的基礎。
設備和工具指的是進行故障管理的軟硬件工具,包括故障檢測設備、維修設備、實用的故障管理系統(tǒng)等。設備和工具在故障管理中起著非常重要的作用,它可以幫助管理員和工程師實施管理功能,排除故障,保障網(wǎng)絡系統(tǒng)正常運轉。下面介紹的就是幾種專用的物理設備:
、 時間域反射測量儀(TDR)。通過顯示物理介質傳輸信號的波形表明設備 或鏈路是否故障。
、 網(wǎng)絡監(jiān)視器。監(jiān)視網(wǎng)絡上各結點的狀態(tài),得到網(wǎng)絡的各種數(shù)字,以 確定是否故障。
、 網(wǎng)絡分析儀。實時分析結點的收發(fā)報文,幫助管理者跟蹤和隔離故障。 管理人員在故障管理中的任務主要是維護管理系統(tǒng)和工具的運行,并在它們的幫助下完成故障排除和系統(tǒng)恢復工作。
2.智能化網(wǎng)絡的概述
為了能夠更有效地對各種大型復雜的網(wǎng)絡進行管理,許多研究人員將人工智能技術應用到網(wǎng)絡管理領域。雖然全面的智能化的網(wǎng)絡管理距離實際應用還有相當長的一段路要走,但是在網(wǎng)絡管理的特定領域實施智能化,尤其是基于專家系統(tǒng)技術的網(wǎng)絡管理是可行的。
用于故障管理的專家系統(tǒng)由知識庫、推理機、知識獲取模塊和解釋接口四大主要部分組成。專家系統(tǒng)以其實時性、協(xié)作管理、層次性等特點,特別適合用在網(wǎng)絡的故障管理領域。但同時專家系統(tǒng)也面臨一些難題:
(1)動態(tài)的網(wǎng)絡變化可能需要經常更新知識庫。
(2)由于網(wǎng)絡故障可能會相關到其它許多事件,很難確定與某一癥狀相關的時間的開始和結束,解釋和綜合消息復雜。
(3)可能需要大量的指令用以標識實際的網(wǎng)絡狀態(tài),并且專家系統(tǒng)需要和它們接口。
(4)專家系統(tǒng)的知識獲取一直以來是瓶頸所在,要想成功地獲取網(wǎng)絡故障知識,需要經驗豐富的網(wǎng)絡專家。
在實現(xiàn)智能化網(wǎng)絡管理系統(tǒng)時,還必須把握系統(tǒng)復雜性與系統(tǒng)性能的關系。不僅要利用將較為成熟的人工智能技術,而且要考慮實現(xiàn)上的復雜度和引入人工智能技術對系統(tǒng)性能和穩(wěn)定性的影響。
3.事件知識庫的研究
在專家系統(tǒng)中,知識的表示有表示法、語義網(wǎng)絡表示法、規(guī)則表示法、特性表示法、框架表示法和過程表示法。產生式表示法,即規(guī)則表示法,是最常見的一種表示法。其特點是模塊性、一致性和自然。知識庫是知識的集合,嚴格意義上的知識庫包括概念、事實和規(guī)則只部分,缺一不可。
為了提高故障管理的智能水平,可以建立事件知識庫(EKB , Event Knowledge Base,用于存儲所有己知事件的類型、產生事件的原因和所造成的影響,以及應該采取什么樣的措施等一些細節(jié)的靜態(tài)描述。這個EKB并不是真正意義上的知識庫,它的數(shù)據(jù)僅僅包含了屬性值與元組,而屬性值表示概念,元組表示事實。但研究EKB可以為今后建立完善的知識庫奠定基礎。
在EKB中存儲了己經確定事件。最初,被確定的事件僅限于一些標準事件和措施。隨著網(wǎng)絡的運行和系統(tǒng)的反饋,EKB的內容將不斷增加。
理想狀態(tài)是能夠確定所有的事件。
下面是EKB涉及到的只種基本的數(shù)據(jù)庫表:
(1)事件類型表:該表中主要存儲了事件的靜態(tài)定義。
EKB中保存了己確定的事件可能涉及的相關知識,如事件類別(如:性能、系統(tǒng)、網(wǎng)絡、應用事件或其它)、嚴重程度(如:嚴重、主要、 次要、 警告等)、產生事件的設備標識、指明設備的類型、事件造成什么影響(如:影響網(wǎng)速、單個用戶不能訪問等)、故障排除參考策略、上次更新的時期/時間、關于這個事件的備注信息、事件的詳細描述等。
(2)實時事件表:描述了正在運行的網(wǎng)絡中的實時事件。
實時事件表中提供可能用的一些字段,用于記錄網(wǎng)絡運行中發(fā)生的事件,如:設備的 ID(從 IP 地址或查詢設備表可以獲得)、實時事件的狀態(tài)(如:新增、確認、清除等)、根據(jù)故障票ID獲得的相應的故障票信息等。
(3)設備信息表:存儲了網(wǎng)絡中設備的實際參數(shù)。
設備信息表主要記錄了每個設備的相關參數(shù)。例如,設備ID號、IP地址、設備名稱、廠商、類型、重要性級別等。
EKB中存儲的相關事件的知識主要來源于專家。開發(fā)人員將獲得的知識應用到與故障管理相關的系統(tǒng)中,根據(jù)不同系統(tǒng)的需要分配相應的知識,以提高系統(tǒng)性能。雖然EKB并不是嚴格意義上的知識庫,但在開發(fā)過程中,可以通過不斷地增加和修正EKB的內容,在一定程度上提高系統(tǒng)的智能水平。
4.結論
文中分析了網(wǎng)絡故障的類型,提出將事件知識庫用于網(wǎng)絡故障的智能管理。實驗表明,計算機網(wǎng)絡故障的智能管理提供了基于知識的決策手段,比傳統(tǒng)的管理方式具有更高的決策水平,為專家系統(tǒng)技術在故障的檢測和隔離方面更加廣泛的應用,奠定了一定基礎。
參考文獻:
[1] 趙志囡等.計算機網(wǎng)絡中的服務[M]. 現(xiàn)代情報.2006. (11)
[2] 楊家海等.網(wǎng)絡管理原理與實現(xiàn)技術[M].北京:清華大學出版社.2000.
[3] 武波,馬玉祥著.專家系統(tǒng)(修訂版)[M].北京:北京理工大學出版社,2001.
【計算機網(wǎng)絡故障管理智能化研究】相關文章:
計算機網(wǎng)絡故障管理智能化論文11-22
當前網(wǎng)絡故障排除方法研究03-08
無線傳感器網(wǎng)絡故障檢測研究11-22
關于綠色建筑智能化研究論文05-22
計算機技術在機房管理中的應用研究03-08
高職院校計算機信息管理專業(yè)建設與課程改革研究03-13
研究計算機病毒與防治03-20