1. 程式人生 > >【數據挖掘課程】(2)數據

【數據挖掘課程】(2)數據

dimen local 兒童 sel str png true cts 穩定

摘要

1.屬性和對象(attributes and objects)

2.數據集類型(types of data sets)

3.數據質量(data quality)

4.數據預處理(data preprocessing)

1.屬性和對象

屬性和對象構成了數據,在完成一個數據挖掘任務時,

  • 數據(datas)=對象(objects)+屬性(attributes)

技術分享圖片

  • 屬性的別稱

    維度dimensions, 特征features, 變量variables

  • 屬性的分類

    標稱(nominal), 序數(ordinal), 區間(interval), 比例(ratio)

2.數據集類型

  • 記錄(record)

    (1) 包含諸多記錄的表格,每個對象有一系列屬性

    (2) 文檔數據:

    詞袋(bag-of-words)

    索引矩陣

    (3)切片數據(transaction data)

    技術分享圖片

  • 圖和網絡(graph and network)

    (1) 萬維網 (world wide web)

    每個網頁包含指向其他網頁的url,這樣的指向關系構成網絡

    (2) 社交網絡 (social or information networks)

    (3) 分子結構 (molecular structures)

  • 其他

    (1) 空間位置信息(spatial)

    (2) 圖片(image)

    (3) 多媒體(multimedia)

3.數據質量

  • 數據的可能缺陷

    (1)噪聲(noise)和極端值(outliers)

    噪聲對正確的值產生改動: 比如電視上出現的雪花狀圖案

    極端值: 在數據集中明顯偏離其他數據項的數據項,極端值可能是需要去除的噪聲,也可能是數據挖掘任務的目標

    (2)缺值(missing value)

    缺值的原因分為,數據未收集到(eg. 人拒絕提供年齡信息),或者數據項數值為空(eg. 兒童沒有年收入)

    (3)值重復(duplicate data)

    比如一個人有多個e-mail, 數據集中就會有該人的多條冗余記錄

  • 怎樣補救數據集缺陷

    (1)缺值處理: 去除這條記錄/給缺值一個估計值/分析時忽略缺值

    (2)值重復: 合並冗余記錄

4.數據預處理

  • 集成(aggregation)

    把多個特征合並成一個特征,或把多個對象合並成一個對象。

    集成後的數據有更少的變量,也更加穩定

  • 抽樣(sampling)

    抽樣所得的樣本一定要有代表性,足以代表整個數據集

  • 降維(dimensionality Reduction)

  • (feature subset selection)

  • (feature creation)

  • (discretization and binarization)

  • (attribute transformation)

【數據挖掘課程】(2)數據