=====================================================================

《機器學習實戰》系列部落格是博主閱讀《機器學習實戰》這本書的筆記也包含一些其他python實現的機器學習演算法演算法實現均採用python

=====================================================================

1：關聯分析

2：Apriori演算法和FP-growth演算法原理

3：使用Apriori演算法發現頻繁項集

4：使用FP-growth高效發現頻繁項集

5：例項：從新聞站點點選流中挖掘新聞報道

以下程式用到的原始碼下載地址：

一：關聯分析

1：相關概念

關聯分析（association analysis）：從大規模資料集中尋找商品的隱含關係

項集（itemset）：包含0個或者多個項的集合稱為項集

頻繁項集：那些經常一起出現的物品集合

支援度計數（support count）：一個項集出現的次數也就是整個交易資料集中包含該項集的事物數

關聯規則是形如A->B的表示式，規則A->B的度量包括支援度和置信度

項集支援度：一個項集出現的次數與資料集所有事物數的百分比稱為項集的支援度

eg：support(A->B)=support_count(A並B) / N

項集置信度（confidence）：資料集中同時包含A，B的百分比

eg：confidence(A->B) = support_count(A並B) / support_count(A)

2：關聯分析一些應用

(1)：購物籃分析，通過檢視那些商品經常在一起出售，可以幫助商店瞭解使用者的購物行為，這種從資料的海洋中抽取只是可以用於商品定價、市場促銷、存貨管理等環節

(2)：在Twitter源中發現一些公共詞。對於給定的搜尋詞，發現推文中頻繁出現的單詞集合

(3)：從新聞網站點選流中挖掘新聞流行趨勢，挖掘哪些新聞廣泛被使用者瀏覽到

(4)：搜尋引擎推薦，在使用者輸入查詢時推薦同時相關的查詢詞項

(5)：發現毒蘑菇的相似特徵。這裡只對包含某個特徵元素（有毒素）的項集感興趣，從中尋找毒蘑菇中的一些公共特徵，利用這些特徵來避免遲到哪些有毒的蘑菇

3：樣例（下文分析所依據的樣本，交易資料表）

交易號碼	商品
100	Cola，Egg，Ham
200	Cola，Diaper，Beer
300	Cola，Diaper，Beer，Ham
400	Diaper，Beer

二：Apriori演算法和FP-growth演算法原理

1：Apriori演算法原理

找出所有可能是頻繁項集的項集，即候選項集，然後根據最小支援度計數刪選出頻繁項集，最簡單的辦法是窮舉法，即把每個項集都作為候選項集，統計他在資料集中出現的次數，如果出現次數大於最小支援度計數，則為頻繁項集。

所有的可能的項集（E：Egg C：Cola D：Diaper B：Beer H：Ham）頻繁項集的發現過程如下（假定給定的最小支援度為2）：

頻繁項集的發現過程經過剪枝後的圖為（紅色圓圈內即為剪枝去掉的部分）：

剪枝後的候選集為（E：Egg C：Cola D：Diaper B：Beer H：Ham）那麼CD，CB，CH，DB，DH，BH，DBH即為所求的候選集

2：FP-growth演算法原理

FP-growth演算法不同於Apriori演算法生成候選項集再檢查是否頻繁的”產生-測試“方法，而是使用一種稱為頻繁模式樹（FP-Tree，PF代表頻繁模式，Frequent Pattern）選單緊湊資料結構組織資料，並直接從該結構中提取頻繁項集，下面針對

交易號碼	商品
100	Cola，Egg，Ham
200	Cola，Diaper，Beer
300	Cola，Diaper，Beer，Ham
400	Diaper，Beer

FP-growth演算法分為兩個過程，一是根據原始資料構造FP-Tree，二是在FP-Tree上挖掘頻繁模式做出FP-Tree，頻繁模式樹的挖掘形成過程首先掃描一遍資料集，找出頻繁項的列表L，按照他們的支援度計數遞減排序，即 L = <（Cola：3），（Diaper：3），（Beer：3），（Ham：2）> 再次掃描資料庫，利用每個事物中的頻繁項構造FP-Tree，FP-Tree的根節點為null，處理每個事物時按照L中的順序將事物中出現的頻繁項新增到中的一個分支例如，第一個事物建立一個分支<（Cola：1），（Ham：1）>，第二個事物中包含頻繁項排序後為<（Cola，Diaper，Beer）>，與樹中的分支共享字首（Cola），因此將樹中的節點Cola的計數分別加一，在Cola節點建立分支<（Diaper：1），（Beer：1）>，依次類推，將資料集中的事物都新增到FP-Tree中，為便於遍歷樹，建立一個頭節點表，使得每個項通過一個節點鏈指向他在樹中的出現，相同的鏈在一個連結串列中，構造好的FP-Tree樹如下圖：

根據上表構造的FP-Tree 在FP-Tree上挖掘頻繁模式：挖掘FP-Tree採用自低向上的迭代模式，首先查詢以”Ham“為字尾的頻繁項集，然後依次是”Beer“，”Diaper“，”Cola“ 查詢以”Ham“為字尾的頻繁項集，首先在FP-Tree中找出所有包含”Ham“的記錄，利用頭節點表和樹節點的連結，找出包含”Ham“的兩個分支，<Cola：3，Ham：1>和<（Cola：3，Diaper：2，Beer：1，Ham：1）>，說明在該FP-Tree所代表的資料集中記錄（Cola，Ham）和（Cola，Diaper，Beer，Ham）各出現了一次，利用這兩個分支所代表的記錄構造”Ham“的條件模式基。條件模式基可以看作是一個“子資料集”，由FP-Tree中與字尾模式一起出現的字首路徑組成，Ham作為字尾模式時，”Ham“的兩個字首路徑{（Cola：1），（Cola Diaper Beer：1）}構成了”Ham“的條件模式基。利用”Ham“的條件模式基構造FP-TRee，即“Ham”的條件FP樹。“Ham ”的條件模式基中，Cola出現了2次，Diaper，Beer只出現了1次，所以Diaper，Beer是非頻繁項，不包含在“Ham”的條件模式樹中，“Ham”的條件模式樹只有一個分支<Cola：2>，得到條件頻繁項集{Cola：2}，條件頻繁項集與字尾模式“Ham“合併，得到頻繁項集{Cola Ham ：2} 同理查詢”Beer“為字尾的頻繁項集，得到{ {Diaper Beer ：3} ， {Cola Diaper Beer：2}， {Cola Beer：2} } 查詢”Diaper“為結尾的頻繁項集，得到 {Cola Diaper ：2}

三：使用Apriori演算法發現頻繁項集和挖掘相關規則

1：發現頻繁項集

Apriori演算法是發現頻繁項集的一種方法。Apriori演算法的兩個輸入引數分別是最小支援度和資料集。該演算法首先會生成所有單個元素的項集列表。接著掃描資料集來檢視哪些項集滿足最小支援度要求，那些不滿足最小支援度的集合會被去掉。然後，對剩下來的集合進行組合以生成包含兩個元素的項集。接下來，再重新掃描交易記錄，去掉不滿足最小支援度的項集。該過程重複進行直到所有項集都被去掉，建立 Apriori.py檔案，加入以下程式碼

#-*-coding:utf-8-*- ''' Created on 2016年5月8日 @author: Gamer Think ''' from pydoc import apropos #========================= 準備函式（下） ========================================== #載入資料集 def loadDataSet(): return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]] def createC1(dataSet): C1 = [] #C1為大小為1的項的集合 for transaction in dataSet: #遍歷資料集中的每一條交易 for item in transaction: #遍歷每一條交易中的每個商品 if not [item] in C1: C1.append([item]) C1.sort() #map函式表示遍歷C1中的每一個元素執行forzenset，frozenset表示“冰凍”的集合，即不可改變 return map(frozenset,C1) #Ck表示資料集，D表示候選集合的列表，minSupport表示最小支援度 #該函式用於從C1生成L1，L1表示滿足最低支援度的元素集合 def scanD(D,Ck,minSupport): ssCnt = {} for tid in D: for can in Ck: #issubset：表示如果集合can中的每一元素都在tid中則返回true if can.issubset(tid): #統計各個集合scan出現的次數，存入ssCnt字典中，字典的key是集合，value是統計出現的次數 if not ssCnt.has_key(can): ssCnt[can] = 1 else: ssCnt[can] += 1 numItems = float(len(D)) retList = [] supportData = {} for key in ssCnt: #計算每個項集的支援度，如果滿足條件則把該項集加入到retList列表中 support = ssCnt[key]/numItems if support >= minSupport: retList.insert(0, key) #構建支援的項集的字典 supportData[key] = support return retList,supportData #==================== 準備函式（上） ============================= #====================== Apriori演算法（下） ================================= #Create Ck,CaprioriGen ()的輸人蔘數為頻繁項集列表Lk與項集元素個數k，輸出為Ck def aprioriGen(Lk,k): retList = [] lenLk = len(Lk) for i in range(lenLk): for j in range(i+1,lenLk): #前k-2項相同時合併兩個集合 L1 = list(Lk[i])[:k-2] L2 = list(Lk[j])[:k-2] L1.sort() L2.sort() if L1 == L2: retList.append(Lk[i] | Lk[j]) return retList def apriori(dataSet, minSupport=0.5): C1 = createC1(dataSet) #建立C1 #D: [set([1, 3, 4]), set([2, 3, 5]), set([1, 2, 3, 5]), set([2, 5])] D = map(set,dataSet) L1,supportData = scanD(D, C1, minSupport) L = [L1] #若兩個項集的長度為k - 1,則必須前k-2項相同才可連線，即求並集，所以[:k-2]的實際作用為取列表的前k-1個元素 k = 2 while(len(L[k-2]) > 0): Ck = aprioriGen(L[k-2], k) Lk,supK = scanD(D,Ck, minSupport) supportData.update(supK) L.append(Lk) k +=1 return L,supportData #====================== Apriori演算法(上) ================================= if __name__=="__main__": dataSet = loadDataSet() L,suppData = apriori(dataSet) i = 0 for one in L: print "項數為 %s 的頻繁項集：" % (i + 1), one,"\n" i +=1

執行上邊程式碼的輸出結果是：

2：挖掘相關規則

要找到關聯規則，我們首先從一個頻繁項集開始。從文章開始說的那個交易資料表的例子可以得到，如果有一個頻繁項集{Diaper，Beer}，那麼就可能有一條關聯規則“Diaper➞Beer”。這意味著如果有人購買了Diaper，那麼在統計上他會購買Beer的概率較大。注意這一條反過來並不總是成立，也就是說，可信度(“Diaper➞Beer”)並不等於可信度(“Beer➞Diaper”)。

前文也提到過，一條規則P➞H的可信度定義為support(P 並 H)/support(P)。可見可信度的計算是基於項集的支援度的。

下圖給出了從項集{0,1,2,3}產生的所有關聯規則，其中陰影區域給出的是低可信度的規則。可以發現如果{0,1,2}➞{3}是一條低可信度規則，那麼所有其他以3作為後件（箭頭右部包含3）的規則均為低可信度的。

頻繁項集{0,1,2,3}的關聯規則網格示意圖

可以觀察到，如果某條規則並不滿足最小可信度要求，那麼該規則的所有子集也不會滿足最小可信度要求。以圖4為例，假設規則{0,1,2} ➞ {3}並不滿足最小可信度要求，那麼就知道任何左部為{0,1,2}子集的規則也不會滿足最小可信度要求。可以利用關聯規則的上述性質屬性來減少需要測試的規則數目，類似於Apriori演算法求解頻繁項集。

下面我們看一下書中的原始碼是怎麼寫

關聯規則生成函式：

def generateRules(L, supportData, minConf=0.7): bigRuleList = [] for i in

range(1,
 len(L)):

for freqSet in L[i]: H1 = [frozenset([item]) for item in freqSet] if

(i
 > 1):

# 三個及以上元素的集合 rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf) else: # 兩個元素的集合 calcConf(freqSet, H1, supportData, bigRuleList, minConf) return bigRuleList

這個函式是主函式，呼叫其他兩個函式。其他兩個函式是rulesFromConseq()和calcConf()，分別用於生成候選規則集合以及對規則進行評估（計算支援度）。

函式generateRules()有3個引數：頻繁項集列表L、包含那些頻繁項集支援資料的字典supportData、最小可信度閾值minConf。函式最後要生成一個包含可信度的規則列表bigRuleList，後面可以基於可信度對它們進行排序。L和supportData正好為函式apriori()的輸出。該函式遍歷L中的每一個頻繁項集，並對每個頻繁項集構建只包含單個元素集合的列表H1。程式碼中的i指示當前遍歷的頻繁項集包含的元素個數，freqSet為當前遍歷的頻繁項集（回憶L的組織結構是先把具有相同元素個數的頻繁項集組織成列表，再將各個列表組成一個大列表，所以為遍歷L中的頻繁項集，需要使用兩層for迴圈）。

輔助函式——計算規則的可信度，並過濾出滿足最小可信度要求的規則

def calcConf(freqSet, H, supportData, brl, minConf=0.7): ''' 對候選規則集進行評估 ''' prunedH = [] for conseq in H: conf = supportData[freqSet] / supportData[freqSet - conseq] if

conf
 >

= minConf: print freqSet - conseq, '-->'

,
 conseq,

'conf:', conf brl.append((freqSet -

conseq,
 conseq, conf))

prunedH.append(conseq) return prunedH

計算規則的可信度以及找出滿足最小可信度要求的規則。函式返回一個滿足最小可信度要求的規則列表，並將這個規則列表新增到主函式的bigRuleList中（通過引數brl）。返回值prunedH儲存規則列表的右部，這個值將在下一個函式rulesFromConseq()中用到。

輔助函式——根據當前候選規則集H生成下一層候選規則集

def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7): ''' 生成候選規則集 ''' m = len(H[0]) if (len

(freqSet)
 > (m

+ 1)): Hmpl =

aprioriGen(H,
 m

+ 1) Hmpl =

calcConf(freqSet,
 Hmpl, supportData, brl, minConf)

if (len

(Hmpl)
 >

1): rulesFromConseq(freqSet, Hmpl, supportData, brl, minConf)

從最初的項集中生成更多的關聯規則。該函式有兩個引數：頻繁項集freqSet，可以出現在規則右部的元素列表H。其餘引數：supportData儲存項集的支援度，brl儲存生成的關聯規則，minConf同主函式。函式先計算H中的頻繁項集大小m。接下來檢視該頻繁項集是否大到可以移除大小為m的子集。如果可以的話，則將其移除。使用函式aprioriGen()來生成H中元素的無重複組合，結果儲存在Hmp1中，這也是下一次迭代的H列表。

將上邊的三個函式加入 Apriori.py中 main函式修改為：

if __name__=="__main__": dataSet = loadDataSet() L,suppData = apriori(dataSet) i = 0 for one in L: print "項數為 %s 的頻繁項集：" % (i + 1), one,"\n" i +=1 print "minConf=0.7時：" rules = generateRules(L,suppData, minConf=0.7) print "\nminConf=0.5時：" rules = generateRules(L,suppData, minConf=0.5)

執行結果如下：

關於rulesFromConseq()函式的問題

如果仔細看下上述程式碼和輸出，會發現這裡面是一些問題的。

1 問題的提出

頻繁項集L的值前面提到過。我們在其中計算通過{2, 3, 5}生成的關聯規則，可以發現關聯規則{3, 5}➞{2}和{2, 3}➞{5}的可信度都應該為1.0的，因而也應該包括在當minConf = 0.7時的rules中——但是這在前面的執行結果中並沒有體現出來。minConf = 0.5時也是一樣，{3, 5}➞{2}的可信度為1.0，{2, 5}➞{3}的可信度為2/3，{2, 3}➞{5}的可信度為1.0，也沒有體現在rules中。

通過分析程式程式碼，我們可以發現：

當i = 1時，generateRules()函式直接呼叫了calcConf()函式直接計算其可信度，因為這時L[1]中的頻繁項集均包含兩個元素，可以直接生成和判斷候選關聯規則。比如L[1]中的{2, 3}，生成的候選關聯規則為{2}➞{3}、{3}➞{2}，這樣就可以了。
當i > 1時，generateRules()函式呼叫了rulesFromConseq()函式，這時L[i]中至少包含3個元素，如{2, 3, 5}，對候選關聯規則的生成和判斷的過程需要分層進行（圖4）。這裡，將初始的H1（表示初始關聯規則的右部，即箭頭右邊的部分）作為引數傳遞給了rulesFromConseq()函式。

例如，對於頻繁項集{a, b, c, …}，H1的值為[a, b, c, …]（程式碼中實際為frozenset型別）。如果將H1帶入計算可信度的calcConf()函式，在函式中會依次計算關聯規則{b, c, d, …}➞{a}、{a, c, d, …}➞{b}、{a, b, d, …}➞{c}……的支援度，並儲存支援度大於最小支援度的關聯規則，並儲存這些規則的右部（prunedH，即對H的過濾，刪除支援度過小的關聯規則）。

當i > 1時沒有直接呼叫calcConf()函式計算通過H1生成的規則集。在rulesFromConseq()函式中，首先獲得當前H的元素數m = len(H[0])（記當前的H為Hm ）。當Hm可以進一步合併為m+1元素數的集合Hm+1時（判斷條件：len(freqSet) > (m + 1)），依次：

生成Hm+1：Hmpl = aprioriGen(H, m + 1)
計算Hm+1的可信度：Hmpl = calcConf(freqSet, Hmpl, …)
遞迴計算由Hm+1生成的關聯規則：rulesFromConseq(freqSet, Hmpl, …)

所以這裡的問題是，在i>1時，rulesFromConseq()函式中並沒有呼叫calcConf()函式計算H1的可信度，而是直接由H1生成H2，從H2開始計算關聯規則——於是由元素數>3的頻繁項集生成的{a, b, c, …}➞{x}形式的關聯規則（圖4中的第2層）均缺失了。由於程式碼示例資料中的對H1的剪枝prunedH沒有刪除任何元素，結果只是“巧合”地缺失了一層。正常情況下如果沒有對H1進行過濾，直接生成H2，將給下一層帶入錯誤的結果（如圖4中的012➞3會被錯誤得留下來）。

在i>1時，將對H1呼叫calcConf()的過程加上就可以了。比如可以這樣：

def

generateRules2(L, supportData, minConf 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    《機器學習實戰》使用Apriori演算法和FP-growth演算法進行關聯分析（Python版）
      
								
								            
						
                


=====================================================================

《機器學習實戰》系列部落格是博主閱讀《機器學 

  
 

    

    
    機器學習之Apriori演算法和FP-growth演算法
      1 關聯分析 
無監督機器學習方法中的關聯分析問題。關聯分析可以用於回答"哪些商品經常被同時購買？"之類的問題。 
2 Apriori演算法 
  頻繁項集即出現次數多的資料集   支援度就是幾個關聯的資料在資料集中出現的次數佔總資料集的比重。或者說幾個資料關聯出現的概率。   置信度體現了一個數據出現後，另 

  
 

    

    
    《機器學習實戰》第二章——k-近鄰演算法——筆記
       
 
 在看這一章的書之前，在網上跟著博主Jack-Cui的部落格學習過，非常推薦。 
 部落格地址：http://blog.csdn.net/c406495762  
 《Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法(史詩級乾貨長文)》 
 講述的非常細緻，文字幽默有趣，演算法細 

  
 

    

    
    機器學習實戰讀書筆記(1)--k鄰近演算法
       
 
  
  
 kNN演算法 
 kNN演算法概述 
 kNN演算法和kmeans演算法的比較 
 knn工作原理: 
   存在一個樣本資料集合(訓練樣本集),並且每個樣本都具有標籤,輸入新的樣本後,我們將樣本的特徵與訓練樣本集中的資料特徵比較,演算法提取特徵最相似的k個樣本的標籤,採用少數服從多數的 

  
 

    

    
    機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用
      K-近鄰演算法概述 
簡單的說，K-近鄰演算法採用不同特徵值之間的距離方法進行分類 
 K-近鄰演算法 
優點：精度高、對異常值不敏感、無資料輸入假定。 
缺點：計算複雜度高、空間複雜度高。 
適用範圍：數值型和標稱型。 
  
k-近鄰演算法的一般流程 
 
 收集資料:可使用任何方法  

  
 

    

    
    【機器學習】Apriori演算法——原理及程式碼實現（Python版）
      Apriopri演算法 
 
 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。 
 

  
 

    

    
    Python3《機器學習實戰》筆記：K-近鄰演算法
      
							
							
							2.1 實施KNN演算法
python3實現KNN演算法，本書採用的是python2，轉化為python3
import numpy as np
#運算子模組
import operator
def createDataSet():
    group = np 

  
 

    

    
    《機器學習實戰》KMeans均值聚類演算法
      
                一、引言聚類是一種無監督學習，對一些沒有標籤的資料進行分類。二、K均值聚類演算法2.1 演算法過程:隨機確定K個初始點為質心（簇個數k由使用者給定），計算資料集中每個點到每個質心的距離本次採用的是歐式距離，然後將資料集中的每個點尋找距其最近的質心，分配到對應的簇中完成後，每個 

  
 

    

    
    《機器學習實戰》第二章，KNN演算法在jupyter中實驗
      
                1、首先在jupyter中New一個Untitle.ipynb，然後將它重新命名為kNN.py，接著在kNN.py中輸入一下程式碼(課本程式碼)：注：以下程式碼中，存在我自己的測試資料檔案的路徑，你們要改為自己測試資料檔案的路徑from numpy import *

imp 

  
 

    

    
    程式碼註釋：機器學習實戰第2章 k-近鄰演算法
      
                
寫在開頭的話：在學習《機器學習實戰》的過程中發現書中很多程式碼並沒有註釋，這對新入門的同學是一個挑戰，特此貼出我對程式碼做出的註釋，僅供參考，歡迎指正。
1、匯入資料：

#coding:gbk
from numpy import *
import operator

de 

  
 

    

    
    Python3《機器學習實戰》01：k-近鄰演算法（完整程式碼及註釋）
      
							
							
							執行平臺： Windows  
Python版本： Python3 
IDE： Anaconda3



# -*- coding: utf-8 -*-
"""
Created on Sun Apr 29 20:32:03 2018

@author: Wang 

  
 

    

    
    機器學習實戰-55:支援向量機分類演算法(Support Vector Machine)
      
							
							
							支援向量機分類演算法

支援向量機(Support Vector Machine)分類演算法屬於監督學習演算法。常用分類演算法包括：邏輯迴歸(Logistic Regression, LR)、K最近鄰(k-Nearest Neighbor, KNN)、樸素貝葉斯 

  
 

    

    
    《機器學習實戰》第二章——K-近鄰演算法
      
                1.K-近鄰演算法（kNN）1.1K-近鄰演算法概述簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類優點：精度高、對異常值不敏感、無資料輸入假定缺點：計算複雜度高、空間複雜度高適用資料範圍：數值型和標稱型1.2KNN演算法原理 存在一個樣本訓練資料集合，並且每 

  
 

    

    
    機器學習-實戰-入門-linearSVC和SVC,身高體重與胖瘦關係的分類與預測
      
								
								            
						
                
作者：橘子派
宣告：版權所有，轉載請註明出處，謝謝。



實驗環境：
Windows10
Sublime
Anaconda 1.6.0
Python3.6

根據現有身高和體重訓練模型，再對測試集做 

  
 

    

    
    機器學習實戰——線性迴歸和區域性加權線性迴歸（含python中複製的四種情形！）
      
								
								            
						
                
書籍：《機器學習實戰》中文版
IDE：PyCharm Edu 4.02
環境：Adaconda3  python3.6

注：本程式相比原書中的程式區別，主要區別在於函式驗證和繪圖部分。

一、一般線 

  
 

    

    
    頻繁模式演算法之FP-Growth演算法
      
								
								            
							
							
							https://wenku.baidu.com/view/c32bbada27d3240c8547ef1b.html 
跳轉到FP演算法講解PPT 
1、構建FP樹 
（1）掃描頻繁事務集，調整資料庫  

  
 

    

    
    Tomcat學習—Tomcat的簡介和目錄以及配置文件介紹（Windows環境）
      系統   並發   manager   htm   輕量級   管理   集群   web.xml   虛擬目錄   今天學習TOMCAT，主要學習的是Tomcat的目錄結構，配置文件！1：Tomcat簡介Tomcat 服務器是一個免費的開放源代碼的Web 應用服務器，屬於輕量級應用服務器，在中小型系統和並發 

  
 

    

    
    第11章：使用Apriori演算法進行關聯分析（從頻繁項集中挖掘關聯規則）
       
 
 
 原理： 
 根據頻繁項集找關聯規則，如有一個頻繁項集{豆奶，萵苣}，那麼可能有一條關聯規則是豆奶->萵苣，即一個人購買了豆奶，則大可能他會購買萵苣，但反過來一個人購買了萵苣，不一定他會購買豆奶，頻繁項集使用支援度量化，關聯規則使用可信度或置信度量化。一條規則P->H的可信度定義為支援 

  
 

    

    
    第11章：使用Apriori演算法進行關聯分析（計算頻繁項集）
       
 
 
 目的：找到資料集中事務的關係，如超市中經常一起出現的物品集合，想找到支援度超過0.8的所有項集 
 概念： 
 頻繁項集：指經常出現在一起的物品集合； 
 關聯規則：指兩個物品之間可能存在很強的關係，如一個人買了什麼之後很大可能會買另一種東西； 
 支援度：資料集中包含該項集的記錄所佔的比例；保 

  
 

    

    
    《Python機器學習基礎教程》PDF高清完整版-免費下載（資源共享）
      
 Python機器學習基礎教程-[德] 安德里亞斯·穆勒（Andreas C.Müller）[美]莎拉·吉多（Sarah Guido） 著，張亮（hysic） 譯
 《Python機器學習基礎教程》PDF高清完整版-免費下載
 《Python機器學習基礎教程》PDF高清完整版-免費下載
 下載地址1：網盤下 

  

            

          
        
      
    
    
  
    搜尋
    
        
      
      
    
  
 
  
  
    基礎教學
     
    Mysql入門  
     Sql入門 
      Android入門 
       Docker入門 
        Go語言入門 
         Ruby程式入門 
          Python入門 
           Python進階 
            Django入門 
             Python爬蟲入門 
             
      
      
  
   
  
    最近訪問
    
  	      
  
      
    
  

 

 


  
    
      
        
          首頁
前端設計
程式設計
免費資源
實用技巧
資料庫
資訊
字典
        
          Copyright © 2002-2020  程式人生 796T.COM All rights reserved.