1. 程式人生 > >資料探勘之挖掘頻繁模式的基本概念及方法

資料探勘之挖掘頻繁模式的基本概念及方法

摘自《DATA MINING:Concepts and Techniques》一書,以及個人理解,主要為自己鞏固和總結,如有紕漏和出錯的地方,還請指出。

此書第六章開頭指出

    頻繁模式(frequent pattern),是指頻繁地出現在資料集中的模式,譬如項集,子序列或子結構

    注:模式其實可以理解為,你去菜市場買菜,你的籃子裡面會購置的不同商品的集合種類,因為不止是隻有你,還有別人也在買,因此大家菜籃子裡面購置的商品也不盡相同,因此可以把不同的組合集合看作為一種模式,而某種集合出現的次數較多,則可能視為頻繁模式

而模式又可以以關聯規則(association rule)的形式表示,其中支援度(support)和置信度(confidence)則是規則興趣度的兩種度量,分別反應所發現規則的有用性和確定性。

    注:其實支援度和置性度就是兩個數字,由計算得來,目的就是為了能從數值的角度去分析該模式所隱含的規則,比如毫無關係,又或者正相關和負相關,但都不是絕對的,而興趣度這個詞,其實應該是翻譯的緣故,我也很難用詞來說明,但是你會發現看著看著你就會理解它所代表的含義

支援度support(A=>B)= P(AUB)

置性度 confidence(A=>B)= P(B | A)= support(AUB)/support(A) = support_conut(AUB)/support_count(A)

以上同時滿足最小支援度閾值(min_sup)和最小置性度閾值(min_conf)的規則稱為強規則

    注:其實支援度就是A和B同時發生的概率,置性度就是在A發生的情況下,B發生的概率,說實話我也搞不明白為什麼要這麼稱呼,一開始還弄得我糊里糊塗,AQA,而所謂的強規則,其實就是指該模式有著很強的聯絡性,