1. 程式人生 > >【大資料演算法】:apriori演算法詳解,非常清晰

【大資料演算法】:apriori演算法詳解,非常清晰

 Apriori演算法例項

交易ID

商品ID列表

T100

I1I2I5

T200

I2I4

T300

I2I3

T400

I1I2I4

T500

I1I3

T600

I2I3

T700

I1I3

T800

I1I2I3I5

T900

I1I2I3

上圖為某商場的交易記錄,共有9個事務,利用Apriori演算法尋找所有的頻繁項集的過程如下:


詳細介紹下候選3項集的集合C3的產生過程:從連線步,首先C3={{I1,I2,I3}{I1,I2,I5}{I1,I3,I5}{I2,I3,I4}

{I2,I3,I5}{I2,I4,I5}}C3是由L2與自身連線產生)。根據Apriori性質,頻繁項集的所有子集也必須頻繁的,可以確定有4個候選集{I1,I3,I5}{I2,I3,I4}{I2,I3,I5}{I2,I4,I5}}不可能時頻繁的,因為它們存在子集不屬於頻繁集,因此將它們從C3中刪除。注意,由於Apriori演算法使用逐層搜尋技術,給定候選k項集後,只需檢查它們的(k-1)個子集是否頻繁。


相關推薦

資料演算法:apriori演算法非常清晰

 Apriori演算法例項 交易ID 商品ID列表 T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 T600 I2,I3 T700 I1

c基礎知識C指標(經典,非常詳細)

前言:複雜型別說明     要了解指標,多多少少會出現一些比較複雜的型別,所以我先介紹一下如何完全理解一個複雜型別,要理解複雜型別其實很簡單,一個型別裡會出現很多運算子,他們也像普通的表示式一樣,有優先順序,其優先順序和運算優先順序一樣,所以我總結了一下其原則:從變

大話資料結構02 演算法 筆記

《大話資料結構》 ——程傑 共463頁 筆記圈點主要內容,也請多多支援大話資料結構該書作者 第 2 章 演算法 42頁_開場白 44頁_演算法定義 演算法的定義

字串演算法字典樹

### 字典樹   字典樹,又稱單詞查詢樹,`Trie`樹,是一種樹形結構,是一種雜湊樹的變種。典型應用是用於統計,排序和儲存大量的字串(但不僅限於字串),所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是:利用字串的公共字首來節約儲存空間,最大限度地減少無謂的字串比較,查詢效率比雜湊表高。   字典樹與字

資料技術3.Mapreduce和Yarn

一、Mapreduce Mapreduce主要應用於日誌分析、海量資料的排序、索引計算等應用場景,它是一種分散式計算模型,主要用於解決離線海量資料的計算問題。 核心思想是:“分而治之,迭代彙總” Mapreduce主要由兩個階段: map階段:任務分解 1.讀取HDFS中的檔案,把輸入檔

資料技術2.協調服務zookeeper

本文主要按以下六個部分進行描述:一、概念與作用 二、資料模型與特徵 三、角色 四、工作原理 五、選舉機制 六、zookeeper實戰操作(shell命令與API) 一、概念與作用 zookeeper主要是為分散式應用提供一致性服務 主要提供:維護配置資訊、名字服務、分散式同步、組服務 其結構

資料技術1.hadoop叢集搭建

近年來,大資料技術越來越吃香,也是追求高薪的必備技能之一。 近些日子,打算技術轉型,開始研究大資料技術,基於對JAVA、LINUX系統有一定的基礎,完成hadoop叢集搭建(1個master和1個slave)。 一、準備工具 VMvare、centOS6.3、SSH Secure客戶端(

資料學習數學基礎及應用

一談到大資料技術,很多人首先想到的是數學,大概是因為數字在數學體系中穩固的位置吧,這也是理所當然的。大資料時代已經被抄的很熱了,這個行業目前已經逐漸成熟,想學習大資料開發的人越來越多。每天我們在網際網路都要存留大量的資訊,但如何收集、整理這海量的資訊,併產生價值,已經是各行各業都在探索的重要課題,且

資料技術HBase基本知識介紹及典型案例分析

  (1)分散式、多版本、面向列的開源資料庫      (2)支援上億行、百萬列;   (3)強一致性、高擴充套件、高可用 Hbase是一個強一致性資料庫,不是“最終一致性”資料庫。 HBase資料讀寫,更新的資料是放在Mems

資料技術關於Spark Streaming 技術要點的一些彙總

原文連結:https://blog.csdn.net/D55dffdh/article/details/82423831 Spark Streaming 支援實時資料流的可擴充套件(Scalable)、高吞吐(high-throughput)、容錯(fault-tolerant)的流處

資料學習之早課20180913

1.如何判斷一個Linux上的xxx服務是否存活? 談談你們的理解 檢視程序ps -ef   檢視埠netstat -nlp 2.埠號哪個命令去看看通不通 telnet ip加埠號,比如 telnet 192.168.137.190 80 3.那麼Linux和window

資料安全Apache Kylin 安全配置(Kerberos)

1. 概述 本文首先會簡單介紹Kylin的安裝配置,然後介紹啟用Kerberos的CDH叢集中如何部署及使用Kylin。 Apache Kylin™是一個開源的分散式分析引擎,提供Hadoop/Spark之上的SQL查詢介面及多維分析(OLAP)能力以支援超大規模資料,最初由eBay Inc. 開發並貢獻至開

資料學習之Hive部署

為了減少衝突,一般來說版本都用統一的比較好,所以選擇CDH的部署。 前面的hadoop是選擇hadoop-2.6.0-cdh5.7.0 ,所以hive安裝的版本跟hadooop的尾巴對準了。 2、ctrl+F 搜 hive-1.1.0-cdh5.7.0  , 右鍵選擇

資料學習資料學習基礎知識總綱

大資料需要學習什麼?很多人問過我這個問題。每一次回答完都覺得自己講得太片面了,總是沒有一個合適的契機去好好總結這些內容,直到開始寫這篇東西。大資料是近五年興起的行業,發展迅速,很多技術經過這些年的迭代也變得比較成熟了,同時新的東西也不斷湧現,想要保持自己競爭力的唯一辦法就是不斷學習。 大資

資料安全基於Kerberos的資料安全驗證方案

1.背景 網際網路從來就不是一個安全的地方。很多時候我們過分依賴防火牆來解決安全的問題,不幸的是,防火牆是假設“壞人”是來自外部的,而真正具有破壞性的攻擊事件都是往往都是來自於內部的。 近幾年,在thehackernews等網站上總會時不時看到可以看到一些因為資料安全問題被大面積攻擊、勒索的事件。在Hadoo

day06.Hadoop快速入門&雲服務三種模式IaaSPaaS和SaaS資料教程

day06.Hadoop快速入門&雲服務三種模式IaaS,PaaS和SaaS【大資料教程】1. HADOOP背景介紹1.1 什麼是HADOOP1). HADOOP是apache旗下的一套開源軟體

資料結構AVL樹

1.什麼是AVL樹 AVL樹又稱平衡二叉搜尋樹,它能保證二叉樹高度相對平衡,儘量降低二叉樹的高度,提高搜尋效率。單純的二叉搜尋樹在最壞的情況下插入查詢刪除等操作時間複雜度會是O(N), 例如: 所以,AVL樹就能避免這種情況,使得增刪查改的時間複雜度為O(lgN). (p

資料部落R語言求風險價值VaR Value at Risk

風險價值是衡量與投資組合相關的風險水平的統計方法。風險價值在指定的時間範圍內和給定的置信水平下測量最大損失量。 首先,它的英文值是價值的風險性,縮寫一般是風險價值而不是無功,後者通常是指方差是方差。

資料學習資料學習的基礎知識

學習之前沒搞清楚的知識 傳統的web應用(LAMP、JavaEE、NODE系等)與大資料什麼關係? 之前一直以為大資料的東西就是來取代傳統的Web應用的,其實並不是這樣;即使是大資料的架構,應用層依然會是傳統的web應用,但是會根據資料特點對資料儲存(結構化資料依然會儲存在傳統的關係型資料庫——如My

資料架構基於資料的消費信貸平臺

金融的核心是風控,而好的風控依託於資料。作為依託於大資料驅動的信用消費金融平臺的量化派,為了給信