1. 程式人生 > >資料探勘中的分類和聚類

資料探勘中的分類和聚類

分類(classification )有指導的類別劃分,在若干先驗標準的指導下進行,效果好壞取決於標準選取的好壞。

  它找出描述並區分資料類或概念的模型(或函式),以便能夠使用模型預測類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務, 目前在商業上應用最多。分類的目的是學會一個分類函式或分類模型(也常常稱作分類器),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。分類和迴歸都可用於預測,兩者的目的都是從歷史資料紀錄中自動推匯出對給定資料的推廣描述,從而能對未來資料進行預測。與迴歸不同的是,分類的輸出是離散的類別值,而回歸的輸出是連續數值。二者常表現為決策樹的形式,根據資料值從樹根開始搜尋,沿著資料滿足的分支往上走,走到樹葉就能確定類別。要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示欄位值,c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。不同的分類器有不同的特點。有三種分類器評價或比較尺度:1)預測準確度;2)計算複雜度;3)模型描述的簡潔度。預測準確度是用得最多的一種比較尺度,特別是對於預測型分類任務。計算複雜度依賴於具體的實現細節和硬體環境,在資料探勘中,由於操作物件是巨量的資料,因此空間和時間的複雜度問題將是非常重要的一個環節。對於描述型的分類任務,模型描述越簡潔越受歡迎。另外要注意的是,分類的效果一般和資料的特點有關,有的資料噪聲大,有的有空缺值,有的分佈稀疏,有的欄位或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。目前普遍認為不存在某種方法能適合於各種特點的資料。

聚類(clustering)沒有先驗標準,完全依靠事先的聚類原則(距離,近鄰等),進行類別劃分,效果好壞取決於聚類原則的選取。

  是指根據“物以類聚”的原理,將本身沒有類別的樣本聚整合不同的組,這樣的一組資料物件的集合叫做簇,並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。當前,聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中一個非常活躍的研究課題。常見的聚類演算法包括:K-均值聚類演算法、K-中心點聚類演算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。


       通常,為有監督分類提供若干已標記的模式(預分類過),需要解決的問題是為一個新遇到的但無標記的模式進行標記。在典型的情況下,先將給定的無標記的模式用來學習〔訓練),反過來再用來標記一個新模式。聚類需要解決的問題是將已給定的若千無標記的模式聚集起來使之成為有意義的聚類。從某種意義上說,標記也與聚類相關,但這些型別的標記是由資料驅動的,也就是說,只是從資料中得到這些標記。聚類與資料探勘中的分類不同,在分類模組中,對於目標資料庫中存在哪些類是知道的,要做的就是將每一條記錄分別屬於哪一類標記出來:與此相似但又不同的是,聚類是在預先不知道目標資料庫到底有多少類的情況下,希望將所有的記錄組成不同的類或者說“聚類”,並且使得在這種分類情況下,以某種度量為標準的相似性,在同一聚類之間最小化,而在不同聚類之間最大化。事實上,聚類演算法中很多演算法的相似性都是基於距離的,而且由於現實資料庫中資料型別的多樣性,關於如何度量兩個含有非數值型欄位的記錄之間的距離的討論有很多,並提出了相應的演算法。在很多應用中,聚類分析得到的每一個類中的成員都可以被統一看待。