3.2由稠密網格單元形成簇
在基於網格的聚類算法中,根據以上分析,由鄰接的稠密單元形成簇是相對直截了當的,這也是基於網格的方法的優點之一。但是需要首先定義鄰接單元的含義。設n維空問中的存在任意兩個網格單元U1和U2,當這兩個網格單元在—個維上有交集或是具有一個公共麵時,稱它們為鄰接網格單元。
在二維空間中,比較常使用的是4-connection相鄰定義和8-connection相鄰定義,4-connection更適合在聚類算法中使用。因為當尋找某個網格單元的鄰居時,在4-connection定義下,一個網格單元隻有2d個鄰居,而在8-connection定義下,有3d-1個鄰居,當數據維度d較大時,這個數目非常大。使用4-connection不僅參與計算的單元數目大為減少,而且單元增加與維數的關係由指數增長變為線性增長,所以能進一步減少算法運行所需的時間,具有較低的計算複雜度。其外,隻有在非常特殊的情況下,使用4-connection定義得到的聚類結果才會與使用8-connection定義得到的聚類結果不同,這是因為,當4-connection的網格單元是高密度網格單元時,四個對角線上的網格單元不論是否是高密度網格單元,都能被正確的聚類;隻有當與對角線上的網格單元相鄰的2個網格單元同時為空且該單元本身是高密度網格單元時,不能正確聚類,在劃分網格時,通常都要求網格單元的大小遠小於簇的大小,因此可以認為這種情況出現的可能很小。
4 結論及展望
基於網格聚類方法的優點是它的處理速度快,因為其速度與數據對象的個數無關,而隻依賴於數據空間中每個維上單元的個數,發現任意形狀、任意大小的簇、計算結果與數據輸入順序無關、計算時間與數據量無關,同時不要求像k均值一樣預先指定簇個數等。但是,基於網格方法的聚類算法的輸入參數對聚類結果影響較大,而且這些參數較難設置。當數據中有噪音時,如果不加特殊處理,算法的聚類質量會很差。而且,算法對於數據維度的可伸縮性較差。
基於網格的聚類方法目前還存在一些急需解決的問題,主要有以下幾點:(1)當簇具有不同的密度時,全局的密度參數不能有效發現這樣的簇,需要開發具有可變密度參數的算法。(2)對於不同類型數據的聚類問題,比如對於高維數據,網格的數據將急劇增加,需要有效地技術發現近鄰單元。(3)當數據集的規模巨大以及數據具有地理分布特性時,需要開發有效的並行算法來提高處理的速度。(4)對現有網格算法的優化,從不同方麵提高網格算法的有效性。比如開發稀疏網格的壓縮算法、密度相似網格的合並算法等。
參考文獻:
[1]CHENMS,HAN Jiawei,YUPS.Datamining:an overviewfrom a database perspective[J].IEEE Trans on Knwledge and Data Eng.1996,8(6):866-883
[2]NGRT,HANJ.Efficient and effective clustering methods for spatial data mining[C].Proc of the 20th VLDB Conference.Chile,Santia.1994:144-155
[3]ZHANGT,RAMAKRISHNANR,LIVNYM.An efficient data clustering method for very large databases[C].Proc of ACM SIGMOD International Conference on Management of Data.NewYork:ACM Press,1996:103-114