1. 程式人生 > >資料探勘(1)知識點總結

資料探勘(1)知識點總結

詳細文章轉自:https://blog.csdn.net/sinat_22594309/article/details/74923643

資料探勘的一般過程包括以下這幾個方面:

1、 資料預處理

2、 資料探勘

3、 後處理

一、資料預處理

主要手段分為兩種:選擇分析所需的資料物件和屬性;創造或改變屬性。

1.常見的幾種預處理方法:聚集、抽樣、維歸約、特徵子集的選擇、特徵的建立、離散化和二元化、變數變換。

  • 聚集:    就是把相關或者類似的資料物件集合到一起,常常用在資料探索階段。另外,聚集還有一個功能就是可以改變資料的解析度,以適應不同目的的資料探勘工作。
  • 抽樣:    最常見的抽樣方法通常是隨機抽樣,但如果我們處理的資料是非對稱的,那麼通常我們要採取分層抽樣
    ,因為隨機抽樣有可能把我們的稀疏樣本給淹沒了。
  • 維歸約:    目的就是降低資料集的維度以期減少我們的計算量。最簡單的維歸約方法就是去除無效或者不相關的特徵。當然,除此之外,我們也有一些數學方法來進行降維,比如說主成分分析(PCA)和奇異值分解(SVD)。
  • 特徵子集的選擇:    維歸約確實幫我們去除了一部分冗餘的特徵,但很多時候冗餘的特徵並不是我們靠經驗就可以全部篩選出來的。這個時候,一方面我們依靠某些演算法計算特徵的重要程度來進行特徵的篩選,比如樹的一些演算法。另一方面如果計算資源足夠,我們可以嘗試不同的特徵組合選擇效果最好的特徵組合用於我們最後的資料探勘任務。當然,也有演算法通過賦予特徵權值的方法來進行特徵的篩選,比如說支援向量機
    等。

  • 特徵的建立:    特徵當做資料探勘中最重要的東西,說實話,合適的特徵及其組合通常比所謂更加高階的演算法要重要的多,它可以非常直觀迅速地提升你資料探勘的效果。那麼特徵的建立當然包含上面所說的一個特徵選擇的過程,此外,有的時候我們自己建立新的特徵,比如對現有特徵進行一定的處理,用現在特徵值的平方作為新的特徵,可以看到資料和目標變數之間是否存在二次關係,還有就是把資料對映到新的空間,最常見的就是傅立葉分析了,把時間譜上的資料對映到頻譜上,就可以從雜亂無序的資料中尋找到規律。
  • 離散化和二元化:    離散化和二元化算是日常資料探勘中最常見的手段了。首先是離散化,這其中需要注意的就是分類的組數和分類的標準,常見的有等寬和等頻率離散化,還是要根據實際情況進行選擇。而二元化相對就更好理解了,二分類屬性自不必說,對於對分類的屬性,可利用多個二元變數的組合來表示不同的分類情況。

  • 變數變換:    變數變換涉及兩種情況。一是簡單的數值變換,這裡只要考慮屬性是否是序數型的,做變換時是否需要保序,二是規範化和標準化,規範化通常是指你的演算法對變數的區間有一定的要求,所以你需要通過放縮使其落在對應的區間內,而標準化則是為了避免某些數值偏大的屬性決定結果,將資料轉換成一個均值0標準差1的新變數。
2.相似性和相異性度量:    相似性和相異性是資料探勘中非常重要的衡量標準,尤其是聚類演算法和異常檢測,他們據此進行類的劃分以及異常點的判斷,接下來我們就介紹一些最常見的相似性及相異性度量。

最最最常見的莫過於距離了,有一個閩科夫斯基距離,定義為


很明顯r為2的時候就是我們最常用的歐幾里得距離,r為1的時候就是曼哈頓距離,也就是各個維度上距離之和,r趨向於無窮時,就是各維度間最大的那個距離。選擇不同範數的距離都可以作為資料相異性的標準,距離越大則相異性越大。

相似度比較常見的有兩種,Jaccard係數和餘弦相似度。

Jaccard相似度的定義為


Jaccard相似度通常用來處理非對稱的二元屬性物件,因為只針對其中稀疏的屬性,所以可以有效防止考慮兩種屬性計算相似度所有樣本都相似的情況。

由於相似度通常是落在0到1這個區間內的,所以很自然的想到用三角函式來表徵相似度,餘弦相似度定義為


兩個向量的點乘除以兩個向量的模,這樣求得的就是兩個向量夾角的餘弦值,兩個向量重合時相似度最大為1,垂直是相似度最小為0。