資料探勘概念與技術——讀書筆記（2）

阿新 • • 發佈：2019-02-12

原書第三版
Jiawei Han Micheline Kamber Jian Pei 著

第二章認識資料

在進行資料探勘之前，首先需要準備好資料，熟悉資料。

資料物件與屬性型別

一個數據物件代表一個實體，又稱樣本、例項、資料點或物件。
屬性是一個數據欄位，表示資料物件的一個特徵，又稱維、特徵和變數。

標稱屬性：一些符號或事物的名稱。
- 例如：hair_color（黑色，金色，棕色，白色）
- 也可能是數值，例如用1表示頭髮黑色，2表示頭髮白色等，或者使用者的User_ID為數值，但是這些都不具有數值屬性，也就是說，數學運算是沒有意義的。
二元屬性：一種標稱屬性（又稱布林屬性）
- 0或1
- 例如：男或女；有病或沒病
- 對稱的：兩種狀態具有同等價值，攜帶相同的權重
- 非對稱的：結果不是同樣重要。如HIV的檢查結果，用1對最重要的結果編碼（如HIV陽性）
序數屬性：可能的值之間具有有意義的序。相繼值之間的差未知。
- 例如：飲料容量：大、中、小。等級評定：優、良、中、差。
- 這些值具有有意義的先後次序，但是我們不能說“大”比“中”多多少。

以上三種屬性都是定性的，即它們描述物件的特徵，而不給出實際大小或數量

數值屬性：定量的
- 區間標度屬性屬性
  - 用相等的單位尺度度量。區間屬性的值有序，但是不能用比率談論這些值。
  - 例如：不能說10℃比5℃暖兩倍
- 比率標度屬性
  - 具有固有零點的數值屬性。
離散屬性與連續屬性

資料的基本統計描述

把握資料的全貌

中心趨勢度量：均值、中位數和眾數
- 均值(mean)
  均值
  加權算術平均
  - 均值對極端值（例如：離群點）很敏感
  - 為了抵消影響，採用截尾均值（去掉頭尾x%的資料）
- 中位數(median)：有序資料值的中間值
  - 若為個數為偶數，則取中間兩個值中的任意值，如果為數值屬性，一般取兩者的均值。
  - 若觀測的數量很大，可以用差值計算近似值
- 眾數(mode)：集合中出現最頻繁的值
  - 對於適度傾斜（非對稱）的單峰數值資料，有以下近似
- 中列數(midrange)：資料集中最大和最小值的平均值。
度量資料散佈：極差、四分位數、方差、標準差和四分位數極差
- 極差：最大值與最小值之差
- 分位數：取自資料分佈的每隔一定間隔上的點，把資料劃分成基本上大小相等的連貫集合
  - 四分位數：3個數據點，把資料劃分成4個相等的部分。
  - 四分位數極差：IQR = Q3 – Q1（第3個和第1個四分位數之差）
  - IQR可用於挑選離群點，挑選落在第3個四分位數之上或第1個四分位數之下至少1.5*IQR處的值。
- 盒圖：體現了五數概括
  - 分佈的五數概括：最小值、四分位數Q1、中位數、四分位數Q3和最大值（按次序寫出，其中中位數也是四分位數Q2
  - 盒圖的端點一般在四分位數上，即盒的長度為IQR
  - 中位數用盒內的線表示
  - 盒外的兩條線（稱作鬍鬚）延伸到最小和最大觀測值（僅當最高和最低觀測值超過四分位數不到1.5*IQR時，鬍鬚擴充套件到它們，否則鬍鬚出現在四分位數的1.5*IQR之內的最極端的觀測值處終止，剩下情況單獨繪出）
- 方差和標準差：指出資料分佈的散步程度
  方差
  - 標準差是方差的平方根
  - 標準差度量關於均值的發散，僅當選擇均值作為中心度量時使用。
資料的基本統計描述的圖形顯示
- 分位數圖
  - X按遞增序排序，每個觀測值xi與一個百分數fi配對。
  - 意思是大約fi * 100%的資料小於值xi
- 分位數-分位數圖（又稱q-q圖）
  - 對著另一個對應的分位數，繪製一個單變數分佈的分位數。
  - 觀察從一個分佈到另一個分佈是否有漂移
    
    例如Q1這個點表示，在部門1中，25%的價格資料低於60美元，在部門2中，25%的價格資料低於64美元。
- 直方圖
  - 對於X的每個已知值，條的高度表示該X值出現的概率（即計數）
  - 如果X是數值的，X的值域被劃分成不想交的連續子域（稱作桶或者箱）。
- 散點圖
  - 不同於以上三者是衡量單變數的，散點圖確定兩個數值變數之間是否存在聯絡、模式或趨勢

資料視覺化

通過圖形清晰有效地表達資料

基於畫素的視覺化技術
- 值越小，顏色越淡
- 對於寬視窗，以線性方法填充的效果不夠好。第一個元素與前一行的最後一個元素相隔太遠，但是在全域性序下他們是彼此貼近的。這種情況下，可以採用空間填充曲線。
- 另外，視窗不必是矩形的。圓弓分割技術使用圓弓形視窗。
幾何投影視覺化技術
理解多維空間的資料分佈
- 散點圖：使用笛卡爾座標顯示多維資料點。
  - 對於維數超過4的資料集，散點圖一般不太有效。採用散點圖矩陣。
  - 散點圖矩陣是二維散點圖的n*n網路
  - 隨著維數的繼續增加，另一種技術稱為平行座標。繪製n個等距離，相互平行的軸，每維一個。缺點是當資料集大時，可讀性較差，視覺上重疊較多。
基於圖符的視覺化技術
- 切爾諾夫臉：用眼、耳、口、鼻等的形狀、大小、位置和方向表示維的值。
  - 缺點：在表示多重聯絡的能力方面存在侷限性。而且未顯示具體的資料值。資料在面部位置的對映需謹慎選擇。
  - 眼睛的大小和眉毛的歪斜是重要的。
- 人物線條畫：把多維資料對映到5段人物線條畫上。每個畫都有四肢和一個軀體。兩個維被對映到顯示軸，其餘維被對映到四肢角度和（或）長度。
層次視覺化技術：把所有維劃分成子空間，這些子空間按層次視覺化。
- 世界中的世界（n-Vision）
- 樹圖
視覺化複雜物件和關係
- 標籤雲

度量資料的相似性和相異性

相似性和相異性都稱為鄰近性

資料矩陣（物件-屬性結構）：採用關係表的形式或n*p（n個物件，p個屬性）矩陣
相異性矩陣（物件-物件結構）：n個物件兩兩之間的鄰近度

d(i,j)是物件i和物件j之間的相異性，數值越大差異越大（最下為0，無差異）。d(i,j) = d(j,i)，矩陣是對稱的。
對於標稱資料，相似性sim(i,j) = 1 - d(i,j)
標稱屬性的鄰近性度量
二元屬性的鄰近性度量
對於標稱屬性可以進行二元屬性編碼，為M種狀態的每個狀態建立一個二元屬性（即該狀態的二元屬性值為1，其餘為0）

q：物件i和j都取1的屬性數
r：物件i取1，物件j取0的屬性數
s：物件i取0，物件j取1的屬性數
t：物件i和j都取0的屬性數
- 對稱二元屬性
- 非對稱的二元屬性
  
  負匹配數t被認為是不重要的。
  相似性被稱為Jaccard係數
數值屬性的相異性
在某些情況下，計算距離之前資料應該規範化，試圖給所有屬性相同的權重
- 歐幾里得距離
- 曼哈頓距離
- 閔可夫斯基距離（Lp範數）
  
  Lp範數中的p，在上面公式中寫為h，p=1即為曼哈頓距離，p=2表示歐幾里得距離。
- 上確界距離（切比雪夫距離）
  
  是h趨於無窮時，閔可夫斯基距離的推廣。
序數屬性的鄰近性度量
混合型別屬性的相異性
可能包含上面列舉了所有屬性型別
餘弦相似性
- 有時會出現稀疏的數值資料（0很多），採取傳統的距離度量，可能會因為過多的0項導致彼此不相似，例如詞頻統計，可能很多詞在兩句話中都沒有出現，需要關注的是它們共有的詞，以及這些詞出現的頻率。
  
  餘弦值越接近1，意味著夾角越小，也就是匹配度越大。
- 當屬性是二值屬性時，簡單變化如下：
  
  這個函式被稱為Tanimoto係數。

自己加油加油笨鳥後飛也要飛呀飛

資料探勘概念與技術——讀書筆記（2）

原書第三版 Jiawei Han Micheline Kamber Jian Pei 著第二章認識資料在進行資料探勘之前，首先需要準備好資料，熟悉資料。資料物件與屬性型別一個數據物件代表一個實體，又稱樣本、例項、資料點或物件。

資料探勘概念與技術——讀書筆記（1）

原書第三版 Jiawei Han Micheline Kamber Jian Pei 著第一章引論為什麼進行資料探勘解決“資料豐富，但資訊貧乏”的問題。資料的爆炸式增長，廣泛可用，巨大數量 ——> 資料時代

資料探勘概念與技術——讀書筆記（8）

基本概念什麼是分類構造一個模型或分類器來預測類標號類別可以用離散值表示，且其中的次序沒有意義。預測一個連續函式或有序值預測器進行數值預測，迴歸分析是最常用的方法。分類的一般方法學習階段使用訓練元祖構建分類模型，由於提供了每個訓

《資料探勘概念與技術》讀書筆記

最近在學習資料探勘和資料分析相關內容，在很多地方有很多朋友都推薦該書，遂購書一本，以作學習之用，把讀書過程中一些習得記錄在此，以備查閱。第一章引論 1.1 為什麼進行資料探勘現在的我們生活在一個資訊時代，每天都有各種各樣大量的資料產生並儲存到

《資料探勘概念與技術》讀書筆記（一）

轉自：http://blog.csdn.net/zhucanxiang/article/details/9843901 之前看過經典的《資料探勘導論》，然後又看了韓家煒的《資料探勘概念與技術》這本資料探勘入門書籍，對資料探勘也有了一個初步的瞭解，特此寫篇文章總結一下自己

《資料探勘概念與技術》學習筆記

1.Chapter1 引論： (1) OLTP 和 OLAP 概念: OLTP(on-line transaction processing) 聯機事物處理，就是我們經常說的關係資料庫的主要應用，主要是基本的、日常的事務處理，例如銀行交易。例如：mysql OLAP(on

【資料探勘概念與技術】學習筆記6-挖掘頻繁模式、關聯和相關性：基本概念和方法（編緝中）

頻繁模式是頻繁地出現在資料集中的模式（如項集、子序列或子結構）。頻繁模式挖掘給定資料集中反覆出現的聯絡。“購物籃”例子，想象全域是商店中商品的集合，每種商品有一個布林變數，表示該商品是否出現。則每個購物籃可以用一個布林向量表示。分析布林向量，得到反映商品頻繁關聯或同時購買的購買模式。這些模式可用關聯規則來表示

資料探勘概念與技術第2章認識資料

本文主要介紹資料物件與屬性，資料的基本統計描述，資料視覺化和度量資料的相似性和相異性。 2.1 資料物件與屬性類別資料集由資料物件組成，一個數據物件代表一個實體。通常資料物件用屬性描述。資料物件又稱樣本、例項、資料點或物件。如果資料物件存放在資

《資料探勘概念與技術》第二版中文版第一章答案

引言 1.1 什麼是資料探勘？在你的回答中，針對以下問題： a. 它是又一種廣告宣傳嗎？ b. 它是一種從資料庫、統計學和機器學習發展的技術的簡單轉換嗎？ c. 解釋資料庫技術發展如何導致資料探勘 d. 當把資料探勘看作知識發現過程時，描述挖掘所

資料探勘概念與技術（原書第三版）範明孟小峰譯-----第六章課後習題答案

第六章答案第六章答案該答案為重慶大學計算機學院Jack Channy所作，由於本人水平有限，難免有錯誤和不當之處，如有意見請評論或者發郵件至[email protected]。 6.1 假設有資料集D上所有閉頻繁項集

python資料探勘入門與實戰——學習筆記（第3、4章）

chapter 3 決策樹預測獲勝球隊 pandas載入資料集 import pandas as pd dataset = pd.read_csv('filepath+filename') 資料清洗，可在讀入時清洗 dataset = pd.read_csv('filen

資料探勘——基於R文字情感分析（2）

姑且算是搞定了這個。最後使用的是在twitter中搜索。因為callback url的關係，之前一直無法直接搜尋twitter內容，今天直接把callback url刪除了就成功了。推薦兩個很好的

資料探勘概念與分析第八章筆記

分類的基本概念分類分類是一種重要的資料分析形式，它提取刻畫重要資料類的模型，這種模型稱為分類器，預測分類(離散的，無序的)類標號。分類和數值預測是預測問題的兩種主要型別。分類的一般方法資料分類涉及兩個過程： 1：學習階段：建立描述預先定義的資料類或概

資料探勘概念與分析第六章筆記

挖掘頻繁模式頻繁模式是頻繁地出現在資料集中的模式，主要包括頻繁項集模式，頻繁序列模式，和頻繁結構模式。我們先了解什麼是項集，K-項集，資料集，絕對支援值的概念。書中都有講解，這裡簡單的來說一下。項集：最基本的模式就是項集，是指若干個項的集合 K-項集：包含K個項

《python資料探勘入門與實踐》筆記1

1.匯入iris植物資料集，包含150個sample。X是一個4元組，包含特徵：sepal length、 sepal width、 petal length、 petal width。Y是每個sample的分類情況，分類有三種情況（0，1，2）表示。 fro

python資料探勘入門與實踐--------轉換器（資料與處理）與流水線

y=MinMaxScaler().fit_transform(x) y與x為同型矩陣，y每列值的值域為0到1 sklearn.preprocessing.Normalizer 每條資料各特徵值的和為1 sklearn.preprocessing.StandardScaler 各特

C陷阱與缺陷讀書筆記（一）

之間之前符號雙引號陷阱數組調用筆記如果第一章 1.2 按位運算符：& 邏輯運算符：&& 1.3 單字符符號：只有一個字符長多字符符號：含多個字符

Python資料分析與挖掘學習筆記（2）使用pandas進行資料匯入

一、匯入pandas模組： import pandas as pda 二、匯入CSV格式資料： #資料匯入 i=pda.read_csv("E:/hexun.csv") 可對匯入的資料進行統計以及按列排序： #統計 i.describe() #排序 i

分散式系統概念與設計——閱讀筆記（一）

一、分散式系統的挑戰分散式系統的挑戰，其實就是某種意義上分散式系統研究的重點內容。 1、異構性分散式系統的執行環境，存在下列異構性（即存在多樣性和差別）：網路、計算機硬體、作業系統、程式語言、由不同開發者完成的軟體實現。中介軟體是解決異構性的一種方式，中介軟體是指一個

大資料探勘之Scala零基礎學習（一）

第5章函式5.1函式程式程式碼：object section5_1 extends App { // def gcd(x:Int,y:Int):Int=if(x%y==0) y else gcd(

資料探勘概念與技術——讀書筆記（2）

第二章 認識資料

資料物件與屬性型別

資料的基本統計描述

資料視覺化

度量資料的相似性和相異性

相關推薦

第二章認識資料