1. 程式人生 > >零基礎學習大數據挖掘的33個知識點整理

零基礎學習大數據挖掘的33個知識點整理

解決 apr k-近鄰 目的 訪問量 con 關聯規則 增長 信息技術

下面是一些關於大數據挖掘的知識點,今天和大家一起來學習一下。

  1. 數據、信息和知識是廣義數據表現的不同形式。

  2. 主要知識模式類型有:廣義知識,關聯知識,類知識,預測型知識,特異型知識

  3. web挖掘研究的主要流派有:Web結構挖掘、Web使用挖掘、Web內容挖掘

  4. 一般地說,KDD是一個多步驟的處理過程,一般分為問題定義、數據抽取、數據預處理、.數據挖掘以及模式評估等基本階段。

  5. 數據庫中的知識發現處理過程模型有:階梯處理過程模型,螺旋處理過程模型,以用戶為中心的處理結構模型,聯機KDD模型,支持多數據源多知識模式的KDD處理模型

  6. 粗略地說,知識發現軟件或工具的發展經歷了獨立的知識發現軟件、橫向的知識發現工具集和縱向的知識發現解決方案三個主要階段,其中後面兩種反映了目前知識發現軟件的兩個主要發展方向。

很多初學者,對大數據的概念都是模糊不清的,大數據是什麽,能做什麽,學的時候,該按照什麽線路去學習,學完往哪方面發展,想深入了解,想學習的同學歡迎加入大數據學習qq群:458345782,有大量幹貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系。

  1. 決策樹分類模型的建立通常分為兩個步驟:決策樹生成,決策樹修剪。

  2. 從使用的主要技術上看,可以把分類方法歸結為四種類型:

基於距離的分類方法

決策樹分類方法

貝葉斯分類方法

規則歸納方法

  1. 關聯規則挖掘問題可以劃分成兩個子問題:

發現頻繁項目集:通過用戶給定Minsupport ,尋找所有頻繁項目集或者最大頻繁項目集。

生成關聯規則:通過用戶給定Minconfidence ,在頻繁項目集中,尋找關聯規則。

  1. 數據挖掘是相關學科充分發展的基礎上被提出和發展的,主要的相關技術:

數據庫等信息技術的發展

統計學深入應用

人工智能技術的研究和應用

  1. 衡量關聯規則挖掘結果的有效性,應該從多種綜合角度來考慮:

準確性:挖掘出的規則必須反映數據的實際情況。

實用性:挖掘出的規則必須是簡潔可用的。

新穎性:挖掘出的關聯規則可以為用戶提供新的有價值信息。

  1. 約束的常見類型有:

單調性約束;

反單調性約束;

可轉變的約束;

簡潔性約束.

  1. 根據規則中涉及到的層次,多層次關聯規則可以分為:

同層關聯規則:如果一個關聯規則對應的項目是同一個粒度層次,那麽它是同層關聯規則。

層間關聯規則:如果在不同的粒度層次上考慮問題,那麽可能得到的是層間關聯規

  1. 按照聚類分析算法的主要思路,聚類方法可以被歸納為如下幾種。

劃分法:基於一定標準構建數據的劃分。

屬於該類的聚類方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

層次法:對給定數據對象集合進行層次的分解。

密度法:基於數據對象的相連密度評價。

網格法:將數據空間劃分成為有限個單元(Cell)的網格結構,基於網格結構進行聚類。

模型法:給每一個簇假定一個模型,然後去尋找能夠很好的滿足這個模型的數據集。

  1. 類間距離的度量主要有:

最短距離法:定義兩個類中最靠近的兩個元素間的距離為類間距離。

最長距離法:定義兩個類中最遠的兩個元素間的距離為類間距離。

中心法:定義兩類的兩個中心間的距離為類間距離。

類平均法:它計算兩個類中任意兩個元素間的距離,並且綜合他們為類間距離:離差平方和。

  1. 層次聚類方法具體可分為:

凝聚的層次聚類:一種自底向上的策略,首先將每個對象作為一個簇,然後合並這些原子簇為越來越大的簇,直到某個終結條件被滿足。

分裂的層次聚類:采用自頂向下的策略,它首先將所有對象置於一個簇中,然後逐漸細分為越來越小的簇,直到達到了某個終結條件。

層次凝聚的代表是AGNES算法。層次分裂的代表是DIANA算法。

  1. 文本挖掘(TD)的方式和目標是多種多樣的,基本層次有:

關鍵詞檢索:最簡單的方式,它和傳統的搜索技術類似。

挖掘項目關聯:聚焦在頁面的信息(包括關鍵詞)之間的關聯信息挖掘上。

信息分類和聚類:利用數據挖掘的分類和聚類技術實現頁面的分類,將頁面在一個更到層次上進行抽象和整理。

自然語言處理:揭示自然語言處理技術中的語義,實現Web內容的更精確處理。

  1. 在web訪問挖掘中常用的技術:

路徑分析

路徑分析最常用的應用是用於判定在一個Web站點中最頻繁訪問的路徑,這樣的知識對於一個電子商務網站或者信息安全評估是非常重要的。

關聯規則發現

使用關聯規則發現方法可以從Web訪問事務集中,找到一般性的關聯知識。

序列模式發現

在時間戳有序的事務集中,序列模式的發現就是指找到那些如“一些項跟隨另一個項”這樣的內部事務模式。

分類

發現分類規則可以給出識別一個特殊群體的公共屬性的描述。這種描述可以用於分類新的項。

聚類

可以從Web Usage數據中聚集出具有相似特性的那些客戶。在Web事務日誌中,聚類顧客信息或數據項,就能夠便於開發和執行未來的市場戰略。

  1. 根據功能和側重點不同,數據挖掘語言可以分為三種類型:

數據挖掘查詢語言:希望以一種像SQL這樣的數據庫查詢語言完成數據挖掘的任務。

數據挖掘建模語言:對數據挖掘模型進行描述和定義的語言,設計一種標準的數據挖掘建模語言,使得數據挖掘系統在模型定義和描述方面有標準可以遵循。

通用數據挖掘語言:通用數據挖掘語言合並了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數據挖掘系統通信,進行交互式挖掘。通用數據挖掘語言標準化是目前解決數據挖掘行業出現問題的頗具吸引力的研究方向。

  1. 規則歸納有四種策略:減法、加法,先加後減、先減後加策略。

減法策略:以具體例子為出發點,對例子進行推廣或泛化,推廣即減除條件(屬性值)或減除合取項(為了方便,我們不考慮增加析取項的推廣),使推廣後的例子或規則不覆蓋任何反例。

加法策略:起始假設規則的條件部分為空(永真規則),如果該規則覆蓋了反例,則不停地向規則增加條件或合取項,直到該規則不再覆蓋反例。

先加後減策略:由於屬性間存在相關性,因此可能某個條件的加入會導致前面加入的條件沒什麽作用,因此需要減除前面的條件。

先減後加策略:道理同先加後減,也是為了處理屬性間的相關性。

  1. 數據挖掘定義有廣義和狹義之分。

從廣義的觀點,數據挖掘是從大型數據集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。

從這種狹義的觀點上,我們可以定義數據挖掘是從特定形式的數據集中提煉知識的過程。

  1. web挖掘的含義: 針對包括Web頁面內容、頁面之間的結構、用戶訪問信息、電子商務信息等在內的各種Web數據,應用數據挖掘方法以幫助人們從因特網中提取知識,為訪問者、站點經營者以及包括電子商務在內的基於因特網的商務活動提供決策支持。

  2. K-近鄰分類算法(K Nearest Neighbors,簡稱KNN)的定義:通過計算每個訓練數據到待分類元組的距離,取和待分類元組距離最近的K個訓練數據,K個數據中哪個類別的訓練數據占多數,則待分類元組就屬於哪個類別。

  3. K-means算法的性能分析:

主要優點:

是解決聚類問題的一種經典算法,簡單、快速。

對處理大數據集,該算法是相對可伸縮和高效率的。

當結果簇是密集的,它的效果較好。

主要缺點

在簇的平均值被定義的情況下才能使用,可能不適用於某些應用。

必須事先給出k(要生成的簇的數目),而且對初值敏感,對於不同的初始值,可能會導致不同結果。

不適合於發現非凸面形狀的簇或者大小差別很大的簇。而且,它對於“躁聲”和孤立點數據是敏感的。

  1. ID3算法的性能分析:

ID3算法的假設空間包含所有的決策樹,它是關於現有屬性的有限離散值函數的一個完整空間。所以ID3算法避免了搜索不完整假設空間的一個主要風險:假設空間可能不包含目標函數。

ID3算法在搜索的每一步都使用當前的所有訓練樣例,大大降低了對個別訓練樣例錯誤的敏感性。因此,通過修改終止準則,可以容易地擴展到處理含有噪聲的訓練數據。

ID3算法在搜索過程中不進行回溯。所以,它易受無回溯的爬山搜索中的常見風險影響:收斂到局部最優而不是全局最優。

  1. Apriori算法有兩個致命的性能瓶頸:

多次掃描事務數據庫,需要很大的I/O負載

對每次k循環,侯選集Ck中的每個元素都必須通過掃描數據庫一次來驗證其是否加入Lk。假如有一個頻繁大項目集包含10個項的話,那麽就至少需要掃描事務數據庫10遍。

可能產生龐大的侯選集

由Lk-1產生k-侯選集Ck是指數增長的,例如104個1-頻繁項目集就有可能產生接近107個元素的2-侯選集。如此大的侯選集對時間和主存空間都是一種挑戰。a基於數據分割的方法:基本原理是“在一個劃分中的支持度小於最小支持度的k-項集不可能是全局頻繁的”。

  1. 改善Apriori算法適應性和效率的主要的改進方法有:

基於數據分割(Partition)的方法:基本原理是“在一個劃分中的支持度小於最小支持度的k-項集不可能是全局頻繁的”。

基於散列的方法:基本原理是“在一個hash桶內支持度小於最小支持度的k-項集不可能是全局頻繁的”。

基於采樣的方法:基本原理是“通過采樣技術,評估被采樣的子集中,並依次來估計k-項集的全局頻度”。

其他:如,動態刪除沒有用的事務:“不包含任何Lk的事務對未來的掃描結果不會產生影響,因而可以刪除”。

  1. 面向Web的數據挖掘比面向數據庫和數據倉庫的數據挖掘要復雜得多:

異構數據源環境:Web網站上的信息是異構: 每個站點的信息和組織都不一樣;存在大量的無結構的文本信息、復雜的多媒體信息;站點使用和安全性、私密性要求各異等等。

數據的是復雜性:有些是無結構的(如Web頁),通常都是用長的句子或短語來表達文檔類信息;有些可能是半結構的(如Email,HTML頁)。當然有些具有很好的結構(如電子表格)。揭開這些復合對象蘊涵的一般性描述特征成為數據挖掘的不可推卸的責任。

動態變化的應用環境:

Web的信息是頻繁變化的,像新聞、股票等信息是實時更新的。

這種高變化也體現在頁面的動態鏈接和隨機存取上。

Web上的用戶是難以預測的。

Web上的數據環境是高噪音的。

  1. 簡述知識發現項目的過程化管理I-MIN過程模型。

MIN過程模型把KDD過程分成IM1、IM2、…、IM6等步驟處理,在每個步驟裏,集中討論幾個問題,並按一定的質量標準來控制項目的實施。

IM1任務與目的:它是KDD項目的計劃階段,確定企業的挖掘目標,選擇知識發現模式,編譯知識發現模式得到的元數據;其目的是將企業的挖掘目標嵌入到對應的知識模式中。

IM2任務與目的:它是KDD的預處理階段,可以用IM2a、IM2b、IM2c等分別對應於數據清洗、數據選擇和數據轉換等階段。其目的是生成高質量的目標數據。

IM3任務與目的:它是KDD的挖掘準備階段,數據挖掘工程師進行挖掘實驗,反復測試和驗證模型的有效性。其目的是通過實驗和訓練得到濃縮知識(Knowledge Concentrate),為最終用戶提供可使用的模型。

IM4任務與目的:它是KDD的數據挖掘階段,用戶通過指定數據挖掘算法得到對應的知識。

IM5任務與目的:它是KDD的知識表示階段,按指定要求形成規格化的知識。

IM6任務與目的:它是KDD的知識解釋與使用階段,其目的是根據用戶要求直觀地輸出知識或集成到企業的知識庫中。

  1. 改善Apriori算法適應性和效率的主要的改進方法有:

基於數據分割(Partition)的方法:基本原理是“在一個劃分中的支持度小於最小支持度的k-項集不可能是全局頻繁的”。

基於散列(Hash)的方法:基本原理是“在一個hash桶內支持度小於最小支持度的k-項集不可能是全局頻繁的”。

基於采樣(Sampling)的方法:基本原理是“通過采樣技術,評估被采樣的子集中,並依次來估計k-項集的全局頻度”。

其他:如,動態刪除沒有用的事務:“不包含任何Lk的事務對未來的掃描結果不會產生影響,因而可以刪除”。

  1. 數據分類的兩個步驟是什麽?

建立一個模型,描述預定的數據類集或概念集

數據元組也稱作樣本、實例或對象。

為建立模型而被分析的數據元組形成訓練數據集。

訓練數據集中的單個元組稱作訓練樣本,由於提供了每個訓練樣本的類標號,因此也稱作有指導的學習。

通過分析訓練數據集來構造分類模型,可用分類規則、決策樹或數學公式等形式提供。

使用模型進行分類

首先評估模型(分類法)的預測準確率。

如果認為模型的準確率可以接受,就可以用它對類標號未知的數據元組或對象進行分類。

  1. web訪問信息挖掘的特點:

Web訪問數據容量大、分布廣、內涵豐富和形態多樣

一個中等大小的網站每天可以記載幾兆的用戶訪問信息。

廣泛分布於世界各處。

訪問信息形態多樣。

訪問信息具有豐富的內涵。

Web訪問數據包含決策可用的信息

每個用戶的訪問特點可以被用來識別該用戶和網站訪問的特性。

同一類用戶的訪問,代表同一類用戶的個性。

一段時期的訪問數據代表了群體用戶的行為和群體用戶的共性。

Web訪問信息數據是網站的設計者和訪問者進行溝通的橋梁。

Web訪問信息數據是開展數據挖掘研究的良好的對象。

Web訪問信息挖掘對象的特點

訪問事務的元素是Web頁面,事務元素之間存在著豐富的結構信息。

訪問事務的元素代表的是每個訪問者的順序關系,事務元素之間存在著豐富的順序信息。

每個頁面的內容可以被抽象出不同的概念,訪問順序和訪問量部分決定概念。

用戶對頁面存在不同的訪問時長,訪問長代表了用戶的訪問興趣。

  1. web頁面內文本信息的挖掘:

挖掘的目標是對頁面進行摘要和分類。

頁面摘要:對每一個頁面應用傳統的文本摘要方法可以得到相應的摘要信息。

頁面分類:分類器輸入的是一個Web頁面集(訓練集),再根據頁面文本信息內容進行監督學習,然後就可以把學成的分類器用於分類每一個新輸入的頁面。

{在文本學習中常用的方法是TFIDF向量表示法,它是一種文檔的詞集(Bag-of-Words)表示法,所有的詞從文檔中抽取出來,而不考慮詞間的次序和文本的結構。這種構造二維表的方法是:

每一列為一個詞,列集(特征集)為辭典中的所有有區分價值的詞,所以整個列集可能有幾十萬列之多。

每一行存儲一個頁面內詞的信息,這時,該頁面中的所有詞對應到列集(特征集)上。列集中的每一個列(詞),如果在該頁面中不出現,則其值為0;如果出現k次,那麽其值就為k;頁面中的詞如果不出現在列集上,可以被放棄。這種方法可以表征出頁面中詞的頻度。

對中文頁面來說,還需先分詞然後再進行以上兩步處理。

這樣構造的二維表表示的是Web頁面集合的詞的統計信息,最終就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法進行分類挖掘。

在挖掘之前,一般要先進行特征子集的選取,以降低維數。

數據分析 9月17日

下面是一些關於大數據挖掘的知識點,今天和大家一起來學習一下。

  1. 數據、信息和知識是廣義數據表現的不同形式。

  2. 主要知識模式類型有:廣義知識,關聯知識,類知識,預測型知識,特異型知識

  3. web挖掘研究的主要流派有:Web結構挖掘、Web使用挖掘、Web內容挖掘

  4. 一般地說,KDD是一個多步驟的處理過程,一般分為問題定義、數據抽取、數據預處理、.數據挖掘以及模式評估等基本階段。

  5. 數據庫中的知識發現處理過程模型有:階梯處理過程模型,螺旋處理過程模型,以用戶為中心的處理結構模型,聯機KDD模型,支持多數據源多知識模式的KDD處理模型

  6. 粗略地說,知識發現軟件或工具的發展經歷了獨立的知識發現軟件、橫向的知識發現工具集和縱向的知識發現解決方案三個主要階段,其中後面兩種反映了目前知識發現軟件的兩個主要發展方向。

  7. 決策樹分類模型的建立通常分為兩個步驟:決策樹生成,決策樹修剪。

  8. 從使用的主要技術上看,可以把分類方法歸結為四種類型:

基於距離的分類方法

決策樹分類方法

貝葉斯分類方法

規則歸納方法

  1. 關聯規則挖掘問題可以劃分成兩個子問題:

發現頻繁項目集:通過用戶給定Minsupport ,尋找所有頻繁項目集或者最大頻繁項目集。

生成關聯規則:通過用戶給定Minconfidence ,在頻繁項目集中,尋找關聯規則。

  1. 數據挖掘是相關學科充分發展的基礎上被提出和發展的,主要的相關技術:

數據庫等信息技術的發展

統計學深入應用

人工智能技術的研究和應用

  1. 衡量關聯規則挖掘結果的有效性,應該從多種綜合角度來考慮:

準確性:挖掘出的規則必須反映數據的實際情況。

實用性:挖掘出的規則必須是簡潔可用的。

新穎性:挖掘出的關聯規則可以為用戶提供新的有價值信息。

  1. 約束的常見類型有:

單調性約束;

反單調性約束;

可轉變的約束;

簡潔性約束.

  1. 根據規則中涉及到的層次,多層次關聯規則可以分為:

同層關聯規則:如果一個關聯規則對應的項目是同一個粒度層次,那麽它是同層關聯規則。

層間關聯規則:如果在不同的粒度層次上考慮問題,那麽可能得到的是層間關聯規

  1. 按照聚類分析算法的主要思路,聚類方法可以被歸納為如下幾種。

劃分法:基於一定標準構建數據的劃分。

屬於該類的聚類方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

層次法:對給定數據對象集合進行層次的分解。

密度法:基於數據對象的相連密度評價。

網格法:將數據空間劃分成為有限個單元(Cell)的網格結構,基於網格結構進行聚類。

模型法:給每一個簇假定一個模型,然後去尋找能夠很好的滿足這個模型的數據集。

  1. 類間距離的度量主要有:

最短距離法:定義兩個類中最靠近的兩個元素間的距離為類間距離。

最長距離法:定義兩個類中最遠的兩個元素間的距離為類間距離。

中心法:定義兩類的兩個中心間的距離為類間距離。

類平均法:它計算兩個類中任意兩個元素間的距離,並且綜合他們為類間距離:離差平方和。

  1. 層次聚類方法具體可分為:

凝聚的層次聚類:一種自底向上的策略,首先將每個對象作為一個簇,然後合並這些原子簇為越來越大的簇,直到某個終結條件被滿足。

分裂的層次聚類:采用自頂向下的策略,它首先將所有對象置於一個簇中,然後逐漸細分為越來越小的簇,直到達到了某個終結條件。

層次凝聚的代表是AGNES算法。層次分裂的代表是DIANA算法。

  1. 文本挖掘(TD)的方式和目標是多種多樣的,基本層次有:

關鍵詞檢索:最簡單的方式,它和傳統的搜索技術類似。

挖掘項目關聯:聚焦在頁面的信息(包括關鍵詞)之間的關聯信息挖掘上。

信息分類和聚類:利用數據挖掘的分類和聚類技術實現頁面的分類,將頁面在一個更到層次上進行抽象和整理。

自然語言處理:揭示自然語言處理技術中的語義,實現Web內容的更精確處理。

  1. 在web訪問挖掘中常用的技術:

路徑分析

路徑分析最常用的應用是用於判定在一個Web站點中最頻繁訪問的路徑,這樣的知識對於一個電子商務網站或者信息安全評估是非常重要的。

關聯規則發現

使用關聯規則發現方法可以從Web訪問事務集中,找到一般性的關聯知識。

序列模式發現

在時間戳有序的事務集中,序列模式的發現就是指找到那些如“一些項跟隨另一個項”這樣的內部事務模式。

分類

發現分類規則可以給出識別一個特殊群體的公共屬性的描述。這種描述可以用於分類新的項。

聚類

可以從Web Usage數據中聚集出具有相似特性的那些客戶。在Web事務日誌中,聚類顧客信息或數據項,就能夠便於開發和執行未來的市場戰略。

  1. 根據功能和側重點不同,數據挖掘語言可以分為三種類型:

數據挖掘查詢語言:希望以一種像SQL這樣的數據庫查詢語言完成數據挖掘的任務。

數據挖掘建模語言:對數據挖掘模型進行描述和定義的語言,設計一種標準的數據挖掘建模語言,使得數據挖掘系統在模型定義和描述方面有標準可以遵循。

通用數據挖掘語言:通用數據挖掘語言合並了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數據挖掘系統通信,進行交互式挖掘。通用數據挖掘語言標準化是目前解決數據挖掘行業出現問題的頗具吸引力的研究方向。

  1. 規則歸納有四種策略:減法、加法,先加後減、先減後加策略。

減法策略:以具體例子為出發點,對例子進行推廣或泛化,推廣即減除條件(屬性值)或減除合取項(為了方便,我們不考慮增加析取項的推廣),使推廣後的例子或規則不覆蓋任何反例。

加法策略:起始假設規則的條件部分為空(永真規則),如果該規則覆蓋了反例,則不停地向規則增加條件或合取項,直到該規則不再覆蓋反例。

先加後減策略:由於屬性間存在相關性,因此可能某個條件的加入會導致前面加入的條件沒什麽作用,因此需要減除前面的條件。

先減後加策略:道理同先加後減,也是為了處理屬性間的相關性。

  1. 數據挖掘定義有廣義和狹義之分。

從廣義的觀點,數據挖掘是從大型數據集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。

從這種狹義的觀點上,我們可以定義數據挖掘是從特定形式的數據集中提煉知識的過程。

  1. web挖掘的含義: 針對包括Web頁面內容、頁面之間的結構、用戶訪問信息、電子商務信息等在內的各種Web數據,應用數據挖掘方法以幫助人們從因特網中提取知識,為訪問者、站點經營者以及包括電子商務在內的基於因特網的商務活動提供決策支持。

  2. K-近鄰分類算法(K Nearest Neighbors,簡稱KNN)的定義:通過計算每個訓練數據到待分類元組的距離,取和待分類元組距離最近的K個訓練數據,K個數據中哪個類別的訓練數據占多數,則待分類元組就屬於哪個類別。

  3. K-means算法的性能分析:

主要優點:

是解決聚類問題的一種經典算法,簡單、快速。

對處理大數據集,該算法是相對可伸縮和高效率的。

當結果簇是密集的,它的效果較好。

主要缺點

在簇的平均值被定義的情況下才能使用,可能不適用於某些應用。

必須事先給出k(要生成的簇的數目),而且對初值敏感,對於不同的初始值,可能會導致不同結果。

不適合於發現非凸面形狀的簇或者大小差別很大的簇。而且,它對於“躁聲”和孤立點數據是敏感的。

  1. ID3算法的性能分析:

ID3算法的假設空間包含所有的決策樹,它是關於現有屬性的有限離散值函數的一個完整空間。所以ID3算法避免了搜索不完整假設空間的一個主要風險:假設空間可能不包含目標函數。

ID3算法在搜索的每一步都使用當前的所有訓練樣例,大大降低了對個別訓練樣例錯誤的敏感性。因此,通過修改終止準則,可以容易地擴展到處理含有噪聲的訓練數據。

ID3算法在搜索過程中不進行回溯。所以,它易受無回溯的爬山搜索中的常見風險影響:收斂到局部最優而不是全局最優。

  1. Apriori算法有兩個致命的性能瓶頸:

多次掃描事務數據庫,需要很大的I/O負載

對每次k循環,侯選集Ck中的每個元素都必須通過掃描數據庫一次來驗證其是否加入Lk。假如有一個頻繁大項目集包含10個項的話,那麽就至少需要掃描事務數據庫10遍。

可能產生龐大的侯選集

由Lk-1產生k-侯選集Ck是指數增長的,例如104個1-頻繁項目集就有可能產生接近107個元素的2-侯選集。如此大的侯選集對時間和主存空間都是一種挑戰。a基於數據分割的方法:基本原理是“在一個劃分中的支持度小於最小支持度的k-項集不可能是全局頻繁的”。

  1. 改善Apriori算法適應性和效率的主要的改進方法有:

基於數據分割(Partition)的方法:基本原理是“在一個劃分中的支持度小於最小支持度的k-項集不可能是全局頻繁的”。

基於散列的方法:基本原理是“在一個hash桶內支持度小於最小支持度的k-項集不可能是全局頻繁的”。

基於采樣的方法:基本原理是“通過采樣技術,評估被采樣的子集中,並依次來估計k-項集的全局頻度”。

其他:如,動態刪除沒有用的事務:“不包含任何Lk的事務對未來的掃描結果不會產生影響,因而可以刪除”。

  1. 面向Web的數據挖掘比面向數據庫和數據倉庫的數據挖掘要復雜得多:

異構數據源環境:Web網站上的信息是異構: 每個站點的信息和組織都不一樣;存在大量的無結構的文本信息、復雜的多媒體信息;站點使用和安全性、私密性要求各異等等。

數據的是復雜性:有些是無結構的(如Web頁),通常都是用長的句子或短語來表達文檔類信息;有些可能是半結構的(如Email,HTML頁)。當然有些具有很好的結構(如電子表格)。揭開這些復合對象蘊涵的一般性描述特征成為數據挖掘的不可推卸的責任。

動態變化的應用環境:

Web的信息是頻繁變化的,像新聞、股票等信息是實時更新的。

這種高變化也體現在頁面的動態鏈接和隨機存取上。

Web上的用戶是難以預測的。

Web上的數據環境是高噪音的。

  1. 簡述知識發現項目的過程化管理I-MIN過程模型。

MIN過程模型把KDD過程分成IM1、IM2、…、IM6等步驟處理,在每個步驟裏,集中討論幾個問題,並按一定的質量標準來控制項目的實施。

IM1任務與目的:它是KDD項目的計劃階段,確定企業的挖掘目標,選擇知識發現模式,編譯知識發現模式得到的元數據;其目的是將企業的挖掘目標嵌入到對應的知識模式中。

IM2任務與目的:它是KDD的預處理階段,可以用IM2a、IM2b、IM2c等分別對應於數據清洗、數據選擇和數據轉換等階段。其目的是生成高質量的目標數據。

IM3任務與目的:它是KDD的挖掘準備階段,數據挖掘工程師進行挖掘實驗,反復測試和驗證模型的有效性。其目的是通過實驗和訓練得到濃縮知識(Knowledge Concentrate),為最終用戶提供可使用的模型。

IM4任務與目的:它是KDD的數據挖掘階段,用戶通過指定數據挖掘算法得到對應的知識。

IM5任務與目的:它是KDD的知識表示階段,按指定要求形成規格化的知識。

IM6任務與目的:它是KDD的知識解釋與使用階段,其目的是根據用戶要求直觀地輸出知識或集成到企業的知識庫中。

  1. 改善Apriori算法適應性和效率的主要的改進方法有:

基於數據分割(Partition)的方法:基本原理是“在一個劃分中的支持度小於最小支持度的k-項集不可能是全局頻繁的”。

基於散列(Hash)的方法:基本原理是“在一個hash桶內支持度小於最小支持度的k-項集不可能是全局頻繁的”。

基於采樣(Sampling)的方法:基本原理是“通過采樣技術,評估被采樣的子集中,並依次來估計k-項集的全局頻度”。

其他:如,動態刪除沒有用的事務:“不包含任何Lk的事務對未來的掃描結果不會產生影響,因而可以刪除”。

  1. 數據分類的兩個步驟是什麽?

建立一個模型,描述預定的數據類集或概念集

數據元組也稱作樣本、實例或對象。

為建立模型而被分析的數據元組形成訓練數據集。

訓練數據集中的單個元組稱作訓練樣本,由於提供了每個訓練樣本的類標號,因此也稱作有指導的學習。

通過分析訓練數據集來構造分類模型,可用分類規則、決策樹或數學公式等形式提供。

使用模型進行分類

首先評估模型(分類法)的預測準確率。

如果認為模型的準確率可以接受,就可以用它對類標號未知的數據元組或對象進行分類。

  1. web訪問信息挖掘的特點:

Web訪問數據容量大、分布廣、內涵豐富和形態多樣

一個中等大小的網站每天可以記載幾兆的用戶訪問信息。

廣泛分布於世界各處。

訪問信息形態多樣。

訪問信息具有豐富的內涵。

Web訪問數據包含決策可用的信息

每個用戶的訪問特點可以被用來識別該用戶和網站訪問的特性。

同一類用戶的訪問,代表同一類用戶的個性。

一段時期的訪問數據代表了群體用戶的行為和群體用戶的共性。

Web訪問信息數據是網站的設計者和訪問者進行溝通的橋梁。

Web訪問信息數據是開展數據挖掘研究的良好的對象。

Web訪問信息挖掘對象的特點

訪問事務的元素是Web頁面,事務元素之間存在著豐富的結構信息。

訪問事務的元素代表的是每個訪問者的順序關系,事務元素之間存在著豐富的順序信息。

每個頁面的內容可以被抽象出不同的概念,訪問順序和訪問量部分決定概念。

用戶對頁面存在不同的訪問時長,訪問長代表了用戶的訪問興趣。

  1. web頁面內文本信息的挖掘:

挖掘的目標是對頁面進行摘要和分類。

頁面摘要:對每一個頁面應用傳統的文本摘要方法可以得到相應的摘要信息。

頁面分類:分類器輸入的是一個Web頁面集(訓練集),再根據頁面文本信息內容進行監督學習,然後就可以把學成的分類器用於分類每一個新輸入的頁面。

{在文本學習中常用的方法是TFIDF向量表示法,它是一種文檔的詞集(Bag-of-Words)表示法,所有的詞從文檔中抽取出來,而不考慮詞間的次序和文本的結構。這種構造二維表的方法是:

每一列為一個詞,列集(特征集)為辭典中的所有有區分價值的詞,所以整個列集可能有幾十萬列之多。

每一行存儲一個頁面內詞的信息,這時,該頁面中的所有詞對應到列集(特征集)上。列集中的每一個列(詞),如果在該頁面中不出現,則其值為0;如果出現k次,那麽其值就為k;頁面中的詞如果不出現在列集上,可以被放棄。這種方法可以表征出頁面中詞的頻度。

對中文頁面來說,還需先分詞然後再進行以上兩步處理。

這樣構造的二維表表示的是Web頁面集合的詞的統計信息,最終就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法進行分類挖掘。

在挖掘之前,一般要先進行特征子集的選取,以降低維數。

很多初學者,對大數據的概念都是模糊不清的,大數據是什麽,能做什麽,學的時候,該按照什麽線路去學習,學完往哪方面發展,想深入了解,想學習的同學歡迎加入大數據學習qq群:458345782,有大量幹貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系。

零基礎學習大數據挖掘的33個知識點整理