資料探勘演算法之關聯規則挖掘（二）FPGrowth演算法

阿新 • • 發佈：2019-01-06

之前介紹的apriori演算法中因為存在許多的缺陷，例如進行大量的全表掃描和計算量巨大的自然連線，所以現在幾乎已經不再使用

在mahout的演算法庫中使用的是PFP演算法，該演算法是FPGrowth演算法的分散式執行方式，其內部的演算法結構和FPGrowth演算法相差並不是十分巨大

所以這裡首先介紹在單機記憶體中執行的FPGrowth演算法

還是使用apriori演算法的購物車資料作為例子，如下圖所示：

TID為購物車項的編號，i1-i5為商品的編號

FPGrowth演算法的基本思想是，首先掃描整個購物車資料表，計算每個商品的支援度，並從大到小從上往下排序，得到如下表所示

從底部最小支援度開始，逐一構建FP樹

構建過程如下圖：

最終構建出的FP樹如下圖

將這個FP樹和支援度表關聯起來如下圖：

支援度表中的每一項都有一個存放指向FP樹中對應節點的指標，例如第一行指向i2:7；第二行指向i1:4，因為i1節點還出現在FP樹中的其他位置，所謂i1:4節點中還存放著指向i1:2節點的指標

通過少數的全表掃描構建好的FP樹將購物車沒有規律的資料變成了一個有跡可循的樹形結構，並且省去了進行巨大的自然連線的運算

通過FP樹挖掘出關聯規則：

通過上圖的FP樹，我們可以根據每個商品得到該商品對應的條件模式基，條件FP樹和產生的頻繁模式

例如i5

在FP樹中可以看到，從根節點到i5:1的路徑有兩條：

i2:7-->i1:4-->i5:1

i2:7-->i14-->i3:2-->i5:1

i2:7-->i1:4和i2:7-->i14-->i3:2就是i5的條件模式基，因為最終到達的節點肯定是i5，所以將i5省略

記為{i2,i1:1}{i2,i1,i3:1}，為什麼每個條件模式基的計數為1呢？雖然i2和i1的計數都很大，但是由於i5的計數為1，最終到達i5的重複次數也只能為1。所以條件模式基的計數是根據路徑中節點的最小計數來決定的

根據條件模式基，我們可以得到該商品的條件FP樹，例如i5：

根據條件FP樹，我們可以進行全排列組合，得到挖掘出來的頻繁模式（這裡要將商品本身，如i5也算進去，每個商品挖掘出來的頻繁模式必然包括這商品本身）

根據FP樹得到的全表如下：

至此，FPGrowth演算法輸出的結果就是產生的頻繁模式，FPGrowth演算法使用的是分而治之的方式，將一顆可能十分巨大的樹形結構通過構構建條件FP子樹的方式分別處理

但是在商品資料十分巨大的情況下，FPGrowth演算法所構建的FP樹可能會大到計算機記憶體都無法載入，這時就要使用分散式的FPGrowth，PFP演算法來進行計算

本文參考書：《資料探勘概念與技術》

資料探勘演算法之關聯規則挖掘（二）FPGrowth演算法

之前介紹的apriori演算法中因為存在許多的缺陷，例如進行大量的全表掃描和計算量巨大的自然連線，所以現在幾乎已經不再使用在mahout的演算法庫中使用的是PFP演算法，該演算法是FPGrowth演算法的分散式執行方式，其內部的演算法結構和FPGrowth演算法相差並不是

資料探勘演算法之聚類分析（二）canopy演算法

canopy是聚類演算法的一種實現它是一種快速，簡單，但是不太準確的聚類演算法 canopy通過兩個人為確定的閾值t1，t2來對資料進行計算，可以達到將一堆混亂的資料分類成有一定規則的n個數據堆由於canopy演算法本身的目的只是將混亂的資料劃分成大概的幾個類別，所以它

資料探勘工具---Spark的使用方法（二）

Spark使用過程中報錯彙總報錯1： “ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(ap

資料探勘演算法之-關聯規則挖掘(Association Rule)

在資料探勘的知識模式中，關聯規則模式是比較重要的一種。關聯規則的概念由Agrawal、Imielinski、Swami 提出，是資料中一種簡單但很實用的規則。關聯規則模式屬於描述型模式，發現關聯規則的演算法屬於無監督學習的方法。一、關聯規則的定義和屬性考察一

資料探勘之關聯規則挖掘（Apriori演算法）

一、概述本篇博文主要闡述資料探勘相關的關聯規則挖掘的演算法（Apriori演算法）。主要介紹關聯規則的基本概念、Apriori演算法原理和Apriori演算法例項，文章末尾處附加Apriori演算法源程式。二、關聯規則挖掘的基本概念關聯規則挖掘發現大量資料中項集之間有趣的關聯

資料探勘——基於R文字情感分析（2）

姑且算是搞定了這個。最後使用的是在twitter中搜索。因為callback url的關係，之前一直無法直接搜尋twitter內容，今天直接把callback url刪除了就成功了。推薦兩個很好的

考研資料結構與演算法之堆疊的使用（二）利用堆疊實現進位制轉換

將十進位制的數字轉換成各種不同的進位制，這裡以八進位制為例，其實就是不斷的除以八然後取餘數，雖然用陣列也不難實現，但是顯然棧的後進先出的特性使得更容易理解了，具體實現方法如下： int main(void) { SqStack S; InitStack(S);

資料探勘概念與技術——讀書筆記（1）

原書第三版 Jiawei Han Micheline Kamber Jian Pei 著第一章引論為什麼進行資料探勘解決“資料豐富，但資訊貧乏”的問題。資料的爆炸式增長，廣泛可用，巨大數量 ——> 資料時代

資料探勘概念與技術——讀書筆記（2）

原書第三版 Jiawei Han Micheline Kamber Jian Pei 著第二章認識資料在進行資料探勘之前，首先需要準備好資料，熟悉資料。資料物件與屬性型別一個數據物件代表一個實體，又稱樣本、例項、資料點或物件。

一些關於資料探勘所需要的統計基礎（5）

大家好~這一次我們來簡單說一些關於資料探勘所需要的統計學基礎。不會很深奧哦，我儘量用大白話把它解釋清楚。因為我也是大菜雞，也還在學習為了以後更好的完成我們的各項任務，所以有幾個概念呢在這裡預先做一下解釋和說明。1. 均值2. 方差3. 大數定理4. 中心極限定理5. 假設檢測

資料探勘概念與技術——讀書筆記（8）

基本概念什麼是分類構造一個模型或分類器來預測類標號類別可以用離散值表示，且其中的次序沒有意義。預測一個連續函式或有序值預測器進行數值預測，迴歸分析是最常用的方法。分類的一般方法學習階段使用訓練元祖構建分類模型，由於提供了每個訓

資料結構內排序之慘死攻略（二）

接上回合《資料結構內排序之慘死攻略（一）》聽聞今天還要學資料結構，心中堵著一片烏雲。就算受低潮情緒影響也要堅持學下去啊。目錄 5 歸併排序 5.1 栗子 5.2 程式碼實現 5.3 歸併演算法優化 5.3.1 R.Sedgewick優化 5.3.2

c++演算法之回溯素數環（二）

Description 輸入正整數n，把整數1，2，3，…，n組成一個環，使得相鄰兩個整數之和均為素數。把全部的解按字典序排序後，從1開始編號，依次輸出指定編號的k組解。最後一行輸出總的方案數。同一

lucene排序演算法之向量空間模型（二）

開發十年，就只剩下這套架構體系了！ >>>

0x05演算法設計與分析複習（二）：演算法設計策略-分治法2

參考書籍：演算法設計與分析——C++語言描述（第二版）演算法設計策略-分治法二分搜尋問題描述在有序表（已按關鍵字值非減排序）中搜索給定元素的問題。分治法求解設有一個長度為n的有序表(a0,a1,⋯,an−1)，要求

資料探勘之關聯規則挖掘之Apriori演算法實現

演算法細節見論文：Fast Algorithm for Mining Association Rules 控制檯版本C++程式碼如下： #include <iostream> #include <sstream> #include <fs

資料探勘基礎之統計學的分佈函式

本部落格根據非常好的excel資料而編寫，使用python語言操作，預計使用一週的時間更新完成。需要《非常好的excel資料》word文件，歡迎發郵件給[email protected]，免費發放。 1、幾種常見的統計函式 2、分佈函式 ① ② ，求P{X=5

關聯規則挖掘基本概念與Aprior演算法

關聯規則挖掘在電商、零售、大氣物理、生物醫學已經有了廣泛的應用，本篇文章將介紹一些基本知識和Aprori演算法。啤酒與尿布的故事已經成為了關聯規則挖掘的經典案例，還有人專門出了一本書《啤酒與尿布》，雖然說這個故事是哈弗商學院杜撰出來的，但確實能很好的解釋關聯規

資料探勘基礎之統計學的假設檢驗實驗

本部落格根據非常好的excel資料而編寫，使用python語言操作，預計使用一週的時間更新完成。需要《非常好的excel資料》word文件，歡迎發郵件給[email protected]，免費發放。這篇部落格對應《非常好的excel資料》裡的第3章節。 1.假設檢驗實驗 1

新浪微博資料探勘食譜之八：查詢篇 (查詢最流行的微博元素)

#!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2015-1-4 @author: beyondzhou @name: find_popular_entities.py ''' # Extract en

資料探勘演算法之關聯規則挖掘（二）FPGrowth演算法

相關推薦