具有同本地應用層、傳輸層、網絡層和數據鏈路層數據源相對應的多層分析引擎,並結合移動代理分析引擎,共同通過全局分析引擎中的啟發式全局分析算法的協同分析之後,才能觸發響應模塊。這是對協同工作的有力補充,它可以有效提高響應的準確率,以增加整個網絡的強壯性。
一種基於分布式代理的網絡管理重構機製
李航、王光興
(東北大學網絡與通信中心110004)
摘要:為了提高網絡管理係統自身的可靠性,一種基於分布式代理的重構容錯機製被引入。該方式通過在集中式管理域內設置多個具備管理者部分或全部功能的分布式代理實體作為冗餘。如果某個分布式代理通過故障檢測模塊認為管理者失效,則觸發重構,從而選出負載性能最好的分布式代理來替代原管理者,並重構管理域。本文還對分布式代理實體的結構進行了說明。
關鍵詞:網絡管理;分布式代理;重構容錯;
1.引言
網絡管理係統自身的可靠性是實現網絡管理任務的關鍵,尤其在大規模分布式網絡管理係統中。因為分布式管理需要劃分為不同層次的多個區域,所以存在著大量的中間管理者和區域管理者。又因為在區域內大多采用集中式管理模式,一旦管理者節點出現故障,將導致區域管理功能的失效,並影響整個係統管理。因此,本文引入了重構容錯機製來提高網管係統的可靠性。所謂重構就是通過故障檢測機製,對故障部件進行迅速的隔離,並充分利用係統的功能冗餘,使係統能用剩下的部件繼續工作,重構要求係統應具有一定的冗餘性,並能使重構後的係統盡可能接近原係統。基於該思想,本文通過在集中式管理域內設置多個具備管理者部分或全部功能的分布式代理實體作為冗餘,如果管理者不能正常工作,則通過選舉產生管理域中性能最優冗餘代理實體替代原管理者,並重構管理域。
2.係統模型
嚴格來講,代理是駐留在被管網元上的協助網絡管理係統完成網絡管理任務的一個守護進程,代理的主要功能是處理管理者的管理請求及做出響應。為了實現重構,本文提出了分布式代理的概念,即在域中設置一些高性能代理,使其除了具有一般代理的功能外,還具有管理者的功能,可以在管理者失效情況下,部分或完全替代管理者工作。
正常工作時,管理者每隔一定時間TCollect向域內所有分布式代理收集其負載信息,並形成負載優先級列表,在優先級列表裏記載了當前域中各個分布式代理負載優先級別。每隔周期TListPRI管理者向域內每個分布式代理發送該負載優先級列表。如果某個分布式代理在時間TW內沒有收到優先級列表,認為管理者失效,觸發重構,最終選出負載性能最好的分布式代理來替代原管理者完成管理工作。
考慮一個代理域內有n個分布式代理(n≥2),其中管理者被看做是一個特殊的分布式代理,這些代理構成一個分布式係統。分布式代理一旦發生故障即停止發送消息,而且故障為永久故障,不可恢複。
3.重構機製
重構機製分兩個階段:第一階段,利用NFD-U算法的變體檢測管理者失效狀況,觸發重構;第二階段,利用重構算法選出優先級最高的分布式代理為管理者。
3.1重構觸發
每個分布式代理都要維護一個故障檢測模塊來檢測管理者是否失效。因為各個代理維護的故障檢測模塊完全相同,所以將管理者失效檢測簡化為隻有管理者manager和一個代理p的模型。又因為管理者和代理間的鏈路處於實際網絡環境中,因此,認為其鏈路狀態(主要是消息丟失和延遲)呈現一定概率特性,其中鏈路消息丟失概率記為PL,鏈路消息延遲的均值和方差記為E[δ]。
3.2重構算法
重構算法分兩步,第一步,利用Ω+選舉算法產生整個係統中唯一的決策者(judge);第二步,利用第一步產生的決策者和信任集,決策者收集信任集中所有代理的優先級列表,並更新決策者的優先級列表,從而選出優先級最高的分布式代理為管理者重構管理域。
重構算法的第一步利用代理標識這一先驗知識,算法保證了在管理者失效時可以很快地選舉出一個係統中連通性最好決策者,這階段選舉能夠容忍代理故障和鏈路故障。算法的第二步保證了所選舉出的管理者屬於連通性最好的集合之外,還保證了管理者是當前負載最輕、性能最好的代理。
4.分布式代理實體結構
分布式代理的結構由基本代理功能模塊加上重構功能模塊再加上管理站功能模塊組成;管理者可以看作是一個分布式代理的特例,即在這種代理結構中管理站功能模塊處於被激活的狀態。
本文提出的重構算法涉及到大量的代理實體間通信,為了提高通信效率,這裏運用了IP組播技術,因為IP組播被認為是多點群通信的事實標準。
5.結論
在以往的網絡管理研究中,網絡管理係統自身的可靠性並沒有得到足夠的重視,通常情況下,隻對少數關鍵的管理節點做雙機備份之類的保障,有效的可靠性容錯機製還沒有被提出。本文則利用重構的容錯思想,通過設置分布式代理實體作為冗餘,保證了在管理者失效時,能選出負載性能最好的分布式代理來替代原管理者完成管理任務。文中還給出了完整的重構機製和相關算法,從而為解決網絡管理係統可靠性問題提供了一個比較理想的方案。