【資料探勘】K-匿名演算法
阿新 • • 發佈:2019-09-30
簡介
Internet技術、大容量儲存技術的迅猛發 展以及資料共享範圍的逐步擴大,資料的自動採集和釋出越來越頻繁,資訊共享較以前來得更為容易和方便。
但另一方面,以資訊共享與資料探勘為目的的資料釋出過程中隱私洩露問題也日益突出。
因此如何在實現資訊共享的同時,有效地保護私有敏感資訊不被洩漏就顯得尤為重要。資料釋出者在釋出資料前需要對資料集進行敏感資訊的保護處理工作,資料釋出中隱私保護物件主要是使用者敏感資訊與個體間的關聯關係。
因此,破壞這種關聯關係是資料釋出過程隱私保護的主要研究問題。
1、解決方案
有關這類問題所提出的演算法,大致分為如下幾類:
- 匿名保護:敏感欄位進行刪除、機密。這隻能在一定程度上達到保護隱私的目的;
- 資料混亂:對初始資料進行扭曲、擾亂、隨機化後在挖掘;
- 基於密碼學的隱私保護技術;
2、基礎知識
在講解K-匿名演算法之前,先來看看幾個比較重要的基礎概念。
2.1、準識別符號
給定實體集 $U$、實體表$T(A_1,A_2,A_3...A_4,A_5,A_6)$,$f_c:U \to T$ 以及 $f_g: T \to U^{t}$
- 顯示識別符號(ID):記錄的唯一標識,他能清楚標識使用者資訊的屬性,如使用者身份證號碼、社會保險號、姓名等;
- 準識別符號(QI):較高概率(結合外部資料)識別記錄的最小屬性集合;
結語
接下來的幾篇文章會介紹有關這方面的演算法,以及j