1. 程式人生 > >聚類分析(一) 介紹

聚類分析(一) 介紹

一、 聚類演算法
1.1引言
聚類分析,在英文中是Cluster analysis,是機器學習中無監督學習的典型代表。無監督學習沒有訓練過程,給定一些樣本資料,讓機器學習演算法直接對這些資料進行分析,得到資料的某些知識。而無監督學習的另外一類典型演算法是資料降維,它將一個高維向量變換到低維空間中,並且要保持資料的一些內在資訊和結構。
1.2 介紹
將聚類演算法按其發展程序大致分為傳統聚類演算法和現代聚類演算法,傳統聚類演算法有:基於層次聚類、基於劃分聚類、基於密度聚類、基於網格聚類,現代聚類演算法有:模糊聚類、量子聚類、譜聚類、模型聚類。
1.2.1 傳統聚類演算法
傳統聚類演算法多數屬於硬聚類,每個元素只能屬於一個集合,在元素特徵模糊時聚類結果將受到影響。

  1. 基於層次聚類
    層次聚類演算法出現於1963年[31],其的指導思想是對給定待聚類資料集合進行層次化分解。此演算法又稱為資料類演算法,次演算法根據一定的連結規則將資料以層次架構分裂或者聚合,最終形成聚類結果。它的一些實現方式SLINK[27]、CLINK[33] ,則誕生於1970年代。
    BIRCH演算法是層次演算法中的典型代表演算法,其核CF(Cluster Feature)和CF樹。
    CF是一個儲存了聚類資訊的三元組,其中包含了N (待聚類項個數),LS (N個數據點的線性和),SS (N個數據點的平方和)。LS和SS分別反映了聚類的質心和聚類的直徑大小。
    CF樹有兩個引數:分支因子和閾值T。分支因子包括非葉節點CF條目的最大個數和葉節點CF條目的最大個數。這裡葉節點看作聚合而成的一個簇。閾值T限定了所有條目的最大半徑或直徑。
    BIRCH演算法主要有四個階段。第一階段掃描待聚類的所有資料項,根據初始閾值T初始化一顆CF樹。第二階段採用聚合思路,通過增加閾值T重建CF樹,使其聚合度上升。第三、四階段,對已有的CF樹實行全域性聚類以得到更好的聚類效果。
    然而BIRCH演算法並未給出詳細的設定初始閾值T的方法,只是簡單地賦值T=0,在第二階段中,BIRCH 演算法也並未給出增加T值的規則。這也正是近年來學者對於改進BIRCH演算法的一個方向。
  2. 基於劃分聚類
    劃分法屬於硬聚類,指導思想是將給定的資料集初始分裂為K個簇,每個簇至少包含一條資料記錄,然後通過反覆迭代至每個簇不在改變,即得出聚類結果。劃分聚類在初始的一步中即將資料分成給定個數個簇。在演算法過程中還需使用準則函式對劃分結果進行判斷,易產生最優聚類結果。
    K-MEANS[25]所有聚類演算法中知名度最高的,其歷史可以追溯到1967年,此後出現了大量的改進演算法,也有大量成功的應用,K-MEANS是所有聚類演算法中變種和改進型最多的。通過迭代不斷移動個聚簇中心和簇類成員,直到得到理想的結果。通過K均值演算法得到的聚簇結果,簇內項相似度很高,簇間項相似度很低,具有較好的區域性最優特性,但並非是全域性最優解。
  3. 基於密度聚類
    基於層次與劃分的聚類演算法劃分都是以距離為基礎,容易產生類圓形的凸聚類,而密度演算法很好的克服了這個缺點。密度演算法的指導思想是將空間中密度大於某一閾值的點加入到一個聚類中。
    Mean Shift演算法[37]早在1995年就被用於聚類問題,和DBSCAN演算法[30],OPTICS演算法[36]一樣,同屬於基於密度的聚類演算法。
    DBSCAN演算法[19]是基於密度聚類的經典演算法。它將簇定義為密度相連的點的最大集合,將足夠高密度的區域劃分為簇。這樣的演算法對噪聲具有健壯性,並且可以發現任意形狀的聚簇。DBSCAN 的基本演算法流程為,從任意物件P開始根據閾值和引數通過廣度優先搜尋提取從P密度可達的所有物件,得到一個聚類。若P是核心物件,則可以一次標記相應物件為當前類並以此為基礎進行擴充套件。得到一個完整的聚類後,在選擇一個新的物件重複上述過程。若P是邊界物件,則將其標記為噪聲並捨棄。
    儘管DBSCAN演算法改進完善了上述兩種演算法的一些缺陷,但此演算法也存在不足。如聚類的結果與引數關係較大,閾值過大容易將同- -聚類分割,閾值過小容易將不同聚類合併。此外固定的閾值引數對於稀疏程度不同的資料不具適應性,密度小的區域同一聚類易被分割,密度大的區域不同聚類易被合併。
  4. 基於網格聚類
    基於網格的方法,通過採用一個多解析度的網格資料結構,近資料空間劃分為有限個單元,之後所有的處理都是以單個單元為物件的。這樣的處理使得演算法處理速度很快,處理工作量與資料項個數無關,而與劃分的網格個數有關。
    STING演算法[22]是傳統的基於網格的演算法,它將空間區域劃分為矩形單元后處理。Wave Cluster演算法[23]先在空間上加一多維網格結構彙總資料,然後採用小波變換變換元特徵空間,在再變換後的空間中尋找密集區域。
    1.2.2 現代聚類方法
    1.模糊聚類
    1969年,資料集模糊劃分[24]的概念被Ruspini首先提出,並首次系統探究了關於模糊聚類的演算法,其後的一-些學者也相繼提出了基於模糊關係的聚類演算法。但由於當資料集較大時,基於模糊關係的聚類演算法需要先建立模糊等價矩陣,計算量非常大,這類方法也就逐漸減少研究了。與此同時,藉助於圖論、動態規劃、進化演算法、馬爾科夫隨機場等技術,學者們提出了許多其他的模糊聚類演算法,其中應用最為廣泛的是基於目標函式的聚類方法。該方法設計簡單,應用範圍廣,本質來說可歸結為較為簡單的優化問題。模糊C均值(FCM)演算法是基於木變函式的模糊聚類演算法的典型代表。自Dumn於1974年發表後,便被人們不斷完善發展。
    FCM演算法最早是從硬聚類目標函式的優化中匯出的,通過將項與對應簇的中心點距離用隸屬平方加權,將類內誤差平方和目標函式改寫為類內加權誤差平方和目標函式,得到了關於給予目標函式模糊聚類的一種大致描述。由於FCM演算法的實用性和資料處理效果,對於此演算法的研究有著蓬勃的發展,目前己經形成了龐大的體系。對於FCM的演算法研究和改進大致有如下方面:基於目標函式的研究,不同資料型別的聚類,隸屬度約束條件的研究、演算法實現等。
    基於目標函式的研究中,2011年,Tsai在文獻[14]提出了一種包含距離變數的新居里準則,在FCM演算法和KFCM演算法中嘗試應用並得到了較好的效果。當資料並非球體分散式,通過核函式改造目標函式中的距離測度成為了一種解決方案。2010年,Gravest 和Pedrycz提出了一種綜合比較分析的模糊核聚類演算法,在一定程度上解決了非球體分佈資料的聚類問題。但核函式的選擇構造及引數設定又是一個新的難題。
    2.量子聚類
    隨著量子力學理論在實踐方面的發展,量子計算在物理方面的實現極大地推動了量子計算理論與量子演算法的創新。
    2002年,DavidHome將量子機制與聚類演算法結合,通過將資料對映到量子空間,構建波函式,測量勢能方程來獲取最終的聚類中心,提出了一種量子聚類演算法[15]。2010 年曾成、徐紅等人在文獻[16]採用量子遺傳演算法,將聚類問題轉化為聚類中心學有問題,提出了一種基於量子遺傳演算法的聚類方法。
    3.譜聚類
    譜聚類[28]是聚類分析中一個新興且具有生命力的分支,是近年來國際上機器學習資料探勘領域的-一個新的研究熱點。譜聚類建立在譜圖理論基礎上,克服了傳統聚類中對於樣本空間形狀的侷限,以及可能陷入區域性最優而非全域性最優的問題。
    譜聚類演算法本質上是將聚類問題轉化為圖的最優劃分問題,屬於對點聚類演算法。但由於以譜圖理論為基礎,要實現譜聚類需要一定的圖論方面的理論知識基礎。其中主要包括三個方面:一、圖劃分準則:包括最小割集準則、規範割集準則、比例割集準則、平均割集準則、最小最大割集準則、多路規範割集準則。二、相似矩陣、度矩陣及Laplacian矩陣。三、勢函式、Fiedler 向量及譜。
    譜聚類演算法大致分為三個階段。階段一,構建矩陣W表示樣本集。階段二,計算W的前k個特徵值和特徵向量,構建特徵向量空間。階段三,利用K-means或其他經典聚類演算法對向量空間中的特徵向量進行聚類。不同的譜對映方法和準則函式的選擇形成了不同的譜聚類演算法。在文獻[18]中,作者將譜聚類按使用的劃分準則分為迭代譜和多路譜兩類,並給出了各類中典型演算法的介紹。

[1] H. Shaker, S. Member, H. Zareipour, S. Member, and D. Wood, “A Data-Driven Approach for Estimating the Power Generation of Invisible Solar Sites,” vol. 7, no. 5, pp. 2466–2476, 2016.
[2] R. Azimi, M. Ghayekhloo, and M. Ghofrani, “A hybrid method based on a new clustering technique and multilayer perceptron neural networks for hourly solar radiation forecasting,” ENERGY Convers. Manag., vol. 118, pp. 331–344, 2016.
[3] K. Benmouiza and A. Cheknane, “Forecasting hourly global solar radiation using hybrid k -means and nonlinear autoregressive neural network models,” Energy Convers. Manag., vol. 75, pp. 561–569, 2013.
[4] E. Garoudja, F. Harrou, Y. Sun, K. Kara, A. Chouder, and S. Silvestre, “Statistical fault detection in photovoltaic systems,” Sol. Energy, vol. 150, pp. 485–499, 2017.
[5] K. Y. Bae, S. Member, H. S. Jang, S. Member, and D. K. Sung, “Hourly Solar Irradiance Prediction Based on Support Vector Machine and Its Error Analysis,” vol. 32, no. 2, pp. 935–945, 2017.
[6] E. Scolari, F. Sossan, and M. Paolone, “Irradiance prediction intervals for PV stochastic generation in microgrid applications,” Sol. Energy, vol. 139, pp. 116–129, 2016.
[7] D. Tsai, G. Li, W. Li, and W. Chiu, “Advanced Engineering Informatics Defect detection in multi-crystal solar cells using clustering with,” Adv. Eng. Informatics, vol. 29, no. 3, pp. 419–430, 2015.
[8] A. Bruce, I. Macgill, and R. Passey, “Impact of Distributed Photovoltaic Systems on Zone Substation Peak Demand,” vol. 9, no. 2, pp. 621–629, 2018.
[9] A. Di, M. Carmela, D. Piazza, A. Ragusa, and G. Vitale, “Environmental data processing by clustering methods for energy forecast and planning,” Renew. Energy, vol. 36, no. 3, pp. 1063–1074, 2011.
[10] Y. Yagi et al., “Diagnostic technology and an expert system for photovoltaic systems using the learning method,” vol. 75, pp. 655–663, 2003.
[11] L. Sandrolini, M. Artioli, and U. Reggiani, “Numerical method for the extraction of photovoltaic module double-diode model parameters through cluster analysis,” Appl. Energy, vol. 87, no. 2, pp. 442–451, 2010.
[12] A. Triki-lahiani, A. B. Abdelghani, and I. Slama-belkhodja, “Fault detection and monitoring systems for photovoltaic installations : A review,” Renew. Sustain. Energy Rev., vol. 82, no. March 2017, pp. 2680–2692, 2018.
[13] S. R. Madeti and S. N. Singh, “Online modular level fault detection algorithm for grid-tied and o ff -grid PV systems,” Sol. Energy, vol. 157, no. August, pp. 349–364, 2017.
[14] A. A. Munshi and Y. A. I. Mohamed, “ScienceDirect Photovoltaic power pattern clustering based on conventional and swarm clustering methods,” Sol. Energy, vol. 124, pp. 39–56, 2016.
[15] O. P. Mahela and A. G. Shaik, “Power quality recognition in distribution system with solar energy penetration using S -transform and Fuzzy C-means clustering,” Renew. Energy, vol. 106, pp. 37–51, 2017.
[16] K. Benmouiza, M. Tadj, and A. Cheknane, “Electrical Power and Energy Systems Classification of hourly solar radiation using fuzzy c -means algorithm for optimal stand-alone PV system sizing,” Int. J. Electr. Power Energy Syst., vol. 82, pp. 233–241, 2016.
[17] X. Ruhang, “Characteristics and prospective of China ’ s PV development route : Based on data of world PV industry 2000 – 2010,” vol. 56, pp. 1032–1043, 2016.
[18] A. Zagouras, H. T. C. Pedro, and C. F. M. Coimbra, “ScienceDirect Clustering the solar resource for grid management in island mode,” Sol. Energy, vol. 110, pp. 507–518, 2014.
[19]榮秋生,顏君彪,郭國強《基於DBSCAIT聚類演算法的研究與實現》[J].《計算機應用》 ,2004, 24(4):45-46.
[20]胡彩平,秦小麟,《一種改進的基於密度的抽樣聚類演算法》[J]. 《中國影象圖形學報》,2007,12 (11):2031-2036.
[21]周水庚,周傲英,曹品.《基於資料區分的DBSCAI演算法》[J].《計算機研究與發展》 ,2000, 37 (10):1153-1159.
[22]Wang W,Yang J,Muntz R STING:A Statistical Information Grid Approach to Spatial Data Mining[C] In:Proceedings of the 23rd VLDB Conference. Athens, Greece:[s.n], 1997:186-195.
[23]Sheilholeslami G,Chatterjee S,Zhang A.WaveCluster:AMulti-Resolution ClusteringApproach forVery Large Spatial Databases[C] In: Proceedings of the 24th VLDB Conference. MewYork, USA:[s. n ], 1998: 428-439.
[24]Ruspini A new approach to clustering Inf Cont… 1969, 15: 22 28.
[25]Isai Du-Ming, Lin ChungChan Fuzry C-means based clustering for linearly and nonlinearly separable data Pattern Recognition, 2011, 44: 1750" "1760.
[26] David Horn: Assaf Gottlieb. The Method of Quantum Clustering[J], Advances in lew alInformati onProcessing Systems, 2001:769-77
[27]曾成,趙錫均,徐紅.基於量子遺傳演算法的聚類方法[C]. Proceedings of the 29th Chinese Control Conference July 29- 31, 2010Beijing China.
[28]Jain A, Murty M,Flynn P. Data clustering:A Review[J]. ACM Computing Surveys, 1999,31 3):264-323
[29]蔡曉妍,戴冠中,楊黎斌《譜聚類演算法綜述》[J]. 電腦科學, 2008, 35 (7):14-18
[30] MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. 1. University of California Press. pp. 281–297. MR 0214227. Zbl 0214.46201. Retrieved 2009-04-07.
[31] Ward, Joe H. (1963). “Hierarchical Grouping to Optimize an Objective Function”. Journal of the American Statistical Association. 58 (301): 236–244. doi:10.2307/2282967. JSTOR 2282967. MR 0148188.
[32] R. Sibson (1973). “SLINK: an optimally efficient algorithm for the single-link cluster method” (PDF). The Computer Journal. British Computer Society. 16 (1): 30–34. doi:10.1093/comjnl/16.1.30.
[33] D. Defays (1977). “An efficient algorithm for a complete-link method”. The Computer Journal. British Computer Society. 20 (4): 364–366. doi:10.1093/comjnl/20.4.364.
[34] Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). “Maximum Likelihood from Incomplete Data via the EM Algorithm”. Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. JSTOR 2984875. MR 0501537.
[35] Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei (1996). Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M., eds. A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226–231.
[36] Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel, Jörg Sander (1999). OPTICS: Ordering Points To Identify the Clustering Structure. ACM SIGMOD international conference on Management of data. ACM Press. pp. 49–60.
[37] Yizong Cheng. Mean Shift, Mode Seeking, and Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1995.
[38] Jianbo Shi and Jitendra Malik, “Normalized Cuts and Image Segmentation”, IEEE Transactions on PAMI, Vol. 22, No. 8, Aug 2000.