1. 程式人生 > >資料探勘導論學習筆記(一)

資料探勘導論學習筆記(一)

第一章 緒論

資料探勘:在大型資料儲存庫中,自動的發現有用資訊的過程。

資料庫中知識發現過程(KDD): 輸入資料—>資料預處理---->資料探勘---->後處理---->資訊 資料預處理:特徵選擇,維規約,規範集,選擇資料子集 後處理:模式過濾,視覺化,模式表示

資料探勘任務分為兩大類: (1)預測任務:根據其他屬性的值,預測特定屬性的值 被預測的屬性一般叫做目標變數或因變數 用來做預測的屬性稱為說明變數或自變數 (2)描述任務:匯出概括資料中潛在聯絡的模式

四種主要資料探勘任務: (1)預測建模:以說明變數函式的方式為目標變數建立模型 分類:用於預測離散的目標變數 迴歸:用於預測連續的目標變數 例:預測花的型別 (2)關聯分析:用來發現描述資料中強關聯特徵的模式。 例:購物籃分析 (3)聚類分析:發現緊密相關的觀測值組群。 例:文件聚類 (4)異常檢測:識別其特徵顯著不同於其他資料的觀測值。這樣的觀測值稱為異常點或離群點。 例:信用卡欺詐檢測

第二章 資料

基本概念: (1)資料集可以看做是資料物件的集合 (2)屬性是物件的特徵或特性 通常,資料集是一個檔案,其物件是檔案的記錄(或行),每個欄位(或列)對應於一個屬性。 (3)測量標度:將數值或符號值與物件的屬性相關聯的規則。通常將屬性的型別作為測量標度的型別。 (4)數值的如下性質常常用來描述屬性 相異性 序 加法 乘法 根據給定的這些性質,我們可以定義四種屬性型別:標稱,序數,區間,比率。 分類的(定性的):標稱,提供足夠資訊以區分物件(在與不在,是與不是) 序數,提供足夠資訊確定物件的序(那一段) 數值的(定量的):區間,存在測量單位(有正負) 比率,差和比率都有意義,絕對溫度 (5)用值的個數描述屬性 離散的:離散屬性具有有限或無限可能數值 二元屬性:特殊情況,只能接受兩個值,真假,是否,0 1 連續的:連續屬性是取實數值的屬性。 (6)非對稱屬性:選課的為1,未選課為0,只有非零值才重要的二元屬性是非對稱的二元屬性。 (7)資料集的一般特性: 維度:資料集中的物件具有的屬性數目。維災難,維歸約 稀疏性:優點,很多資料探勘演算法僅適合處理稀疏資料。 解析度:不同解析度下資料的性質不同。解析度太高,模式看不到,或者掩埋在噪聲中;解析度太低,模式可能不出現。 (8)記錄資料型別: 事物資料或購物籃資料 資料矩陣或模式矩陣(稀疏資料矩陣,文件-詞矩陣) (9)有序資料 時序資料,時間資料:記錄資料的擴充 序列資料:體項的序列 時間序列資料,特殊的時間資料,其中每個資料都是一個時間序列。 空間資料:重要特點,空間自相關性。

測量和資料收集問題: 1 測量誤差和資料收集錯誤 測量誤差:測量過程導致的任何問題 連續屬性,測量值與實際值的差成為誤差 資料收集錯誤:遺漏資料物件或屬性值或不正確的包含資料物件等錯誤 2 噪聲和偽像 噪聲:測量誤差的隨機部分。術語噪聲通常包含時間或空間分量的資料。 偽像:資料的確定性失真,(一組照片同一地方上的條紋) 3 精度,偏倚和準確率 精度:(相同量)重複測量之間的封閉性,通常用集合標準差度量。 偏倚:測量與被測量之間的系統的變差,用值集合的均值與被測量的已知值之間的度量值。 準確率:被測量的測量值與實際值之間的接近度。考慮有效數字的使用。 4 離群點:具有不同於資料集中大部分資料物件的特徵的資料物件或是相對於該屬性的典型值不尋常的屬性值。也稱異常物件或異常值。 5 遺漏值 處理遺漏值的策略: (1)刪除資料物件或屬性 (2)估計遺漏值:與具有遺漏值的電臨近的點的屬性值常常可以用來估計遺漏的值。 (3)在分析時忽略遺漏值

聚集: 定義:將兩個或多個物件合併成單個物件。 動機: 首先,資料規約導致的較小資料集需要較少的記憶體和處理時間,因此可以使用花費更大的資料探勘演算法。 其次,通過高層而不是低層資料檢視,聚集起到了轄域或標度轉換的作用。 最後,物件或屬性群的性質通常比單個物件或屬性的性質更加穩定。

抽樣: 定義:一種選擇資料物件子集進行分析的常用方法。 簡單隨機抽樣:選取任何特定項的概率相等。 兩種變形: (1)無放回抽樣 (2)有放回抽樣 分層抽樣:從預先指定的組開始抽樣。 漸進抽樣:合適的樣本容量很難確定,因而需要使用自適應或漸進抽樣方法。即從一個小樣本開始,然後增加樣本容量直至得到足夠容量的樣本。

維歸約 好處: (1)如果維度較低,許多資料探勘演算法的效果更好,因為維歸約可以刪除不相關的特徵並降低噪聲。 (2)維歸約可能導致更容易理解的模型,因為模型可能只設計較少的屬性。 (3)降低了資料探勘演算法的時間和記憶體需求。 維災難:隨著資料維度的增加,許多資料分析變得十分困難。 常用方法:使用線性代數技術,將資料高維空間投影到低維空間,特別是對於連續資料。主成分分析和奇異值分解。

特徵子集選擇 降低維度的另一種方法是僅使用特徵的一個子集。 冗餘特徵:重複包含了在一個或多個其他屬性的許多或所有資訊。 不相關特徵:包含對於手頭資料探勘任務幾乎完全沒用的資訊。 幾種標準的特徵選擇方法: (1)嵌入方法:特徵選擇作為資料探勘演算法的一部分自然的出現。 (2)過濾方法:使用某種獨立於資料探勘任務的方法,在資料探勘演算法執行前進行特徵選擇。 (3)包裝方法

在這裡插入圖片描述 特徵子集選擇過程流程圖

特徵建立 建立新屬性的方法: (1)特徵提取:由原始資料建立新的特徵集稱作特徵提取。特徵提取技術都是高度依賴於特定領域的。 (2)對映資料到新的空間:資料的一種完全不同的視角可能揭示重要和有趣的特徵。傅立葉變換 (3)特徵構建

離散化和二元化 離散化:將連續屬性變成分類屬性 二元化:二元屬性 連續屬性離散化: (1)將連續屬性值排序後,通過制定n-1個分割點把他們分成n個區間。 (2)將一個區間中的所有值對映到相同的分類值。 用於分類的離散化方法的根本區別在於使用類資訊(監督)還是不適用類資訊(不監督)。 不監督離散化: 等寬:將屬性的值域劃分成具有相同寬度的區間,而區間的個數由使用者指定。可能受離群點的影響效果不佳。 等頻率:試圖將相同數量的物件放進每個區間。 等深 監督離散化: 第i個區間的熵: 劃分的總熵是每個區間的熵的加權平均

變數變換:用於變數的所有值的變換。 (1)簡單函式 (2)標準化或規範化

相似性或相異性的度量 相似度:兩個變數相似程度的數值度量,通常非負 相異度:兩個物件差異程度度量,術語距離為相異度的同義詞 二者可以相互變換。 資料物件之間的相異度: 歐幾裡距離 閔可夫斯基距離 歐幾裡距離性質:非負性,對稱性,三角不等式性。這三個性質的測量稱為度量。 二元資料的相似性度量: 兩個僅包含二元屬性的物件之間的相似性度量也稱為相似係數。 簡單匹配係數(SMC) Jaccard係數 餘弦相似度。 廣義Jaccard係數(Tanimoto係數) 皮爾森相關 Bregman散度 Mahalanobias距離 斜體都是公式,用於計算,沒有什麼具體的解釋。