商情(2014年17期)-正文基於網格的聚類方法研究

3.2由稠密網格單元形成簇

在基於網格的聚類算法中，根據以上分析，由鄰接的稠密單元形成簇是相對直截了當的，這也是基於網格的方法的優點之一。但是需要首先定義鄰接單元的含義。設n維空問中的存在任意兩個網格單元U1和U2，當這兩個網格單元在—個維上有交集或是具有一個公共麵時，稱它們為鄰接網格單元。

在二維空間中，比較常使用的是4-connection相鄰定義和8-connection相鄰定義，4-connection更適合在聚類算法中使用。因為當尋找某個網格單元的鄰居時，在4-connection定義下，一個網格單元隻有2d個鄰居，而在8-connection定義下，有3d-1個鄰居，當數據維度d較大時，這個數目非常大。使用4-connection不僅參與計算的單元數目大為減少，而且單元增加與維數的關係由指數增長變為線性增長，所以能進一步減少算法運行所需的時間，具有較低的計算複雜度。其外，隻有在非常特殊的情況下，使用4-connection定義得到的聚類結果才會與使用8-connection定義得到的聚類結果不同，這是因為，當4-connection的網格單元是高密度網格單元時，四個對角線上的網格單元不論是否是高密度網格單元，都能被正確的聚類；隻有當與對角線上的網格單元相鄰的2個網格單元同時為空且該單元本身是高密度網格單元時，不能正確聚類，在劃分網格時，通常都要求網格單元的大小遠小於簇的大小，因此可以認為這種情況出現的可能很小。

4 結論及展望

基於網格聚類方法的優點是它的處理速度快，因為其速度與數據對象的個數無關，而隻依賴於數據空間中每個維上單元的個數，發現任意形狀、任意大小的簇、計算結果與數據輸入順序無關、計算時間與數據量無關，同時不要求像k均值一樣預先指定簇個數等。但是，基於網格方法的聚類算法的輸入參數對聚類結果影響較大，而且這些參數較難設置。當數據中有噪音時，如果不加特殊處理，算法的聚類質量會很差。而且，算法對於數據維度的可伸縮性較差。

基於網格的聚類方法目前還存在一些急需解決的問題，主要有以下幾點：（1）當簇具有不同的密度時，全局的密度參數不能有效發現這樣的簇，需要開發具有可變密度參數的算法。（2）對於不同類型數據的聚類問題，比如對於高維數據，網格的數據將急劇增加，需要有效地技術發現近鄰單元。（3）當數據集的規模巨大以及數據具有地理分布特性時，需要開發有效的並行算法來提高處理的速度。（4）對現有網格算法的優化，從不同方麵提高網格算法的有效性。比如開發稀疏網格的壓縮算法、密度相似網格的合並算法等。

參考文獻：

[1]CHENMS，HAN Jiawei，YUPS.Datamining：an overviewfrom a database perspective[J].IEEE Trans on Knwledge and Data Eng.1996，8（6）：866-883

[2]NGRT，HANJ.Efficient and effective clustering methods for spatial data mining[C].Proc of the 20th VLDB Conference.Chile，Santia.1994：144-155

[3]ZHANGT，RAMAKRISHNANR，LIVNYM.An efficient data clustering method for very large databases[C].Proc of ACM SIGMOD International Conference on Management of Data.NewYork：ACM Press，1996：103-114