1. 程式人生 > >《BI那點兒事》資料探勘各類演算法——準確性驗證

《BI那點兒事》資料探勘各類演算法——準確性驗證

準確性驗證示例1:——基於三國志11資料庫

資料準備:

挖掘模型:
依次為:Naive Bayes 演算法、聚類分析演算法、決策樹演算法、神經網路演算法、邏輯迴歸演算法、關聯演算法

提升圖:

依次排名為:
1. 神經網路演算法(92.69% 0.99)
2. 邏輯迴歸演算法(92.39% 0.99)
3. 決策樹演算法(91.19% 0.98)
4. 關聯演算法(90.60% 0.98)
5. 聚類分析演算法(89.25% 0.96)
6. Naive Bayes 演算法(87.61 0.96)

Naive Bayes演算法——分類矩陣

說明:
其他類的538個樣本有482個預測正確,32個錯分為軍師類,24個錯分為將軍類,預測正確率為89.59%;
軍師20個樣本有13個預測正確,7個錯分為其他類,預測正確率為65%;
將軍112個樣本有92個預測正確,16個錯分為其他類,4個錯分為軍師類,預測正確率為82.14%。
聚類分析演算法——分類矩陣


說明:
其他類的538個樣本有536個預測正確,2個錯分為將軍類,預測正確率為99.63%;
軍師20個樣本有0個預測正確,20個錯分為其他類,預測正確率為0%;
將軍112個樣本有62個預測正確,50個錯分為其他類,預測正確率為55.36%。
決策樹演算法——分類矩陣

說明:
其他類的538個樣本有538個預測正確,預測正確率為100%;
軍師20個樣本有0個預測正確,20個錯分為其他類,預測正確率為0%;
將軍112個樣本有73個預測正確,39個錯分為其他類,預測正確率為65.18%。
神經網路演算法——分類矩陣

說明:
其他類的538個樣本有524個預測正確,5個錯分為軍師類,9個錯分為將軍類,預測正確率為97.40%;
軍師20個樣本有5個預測正確,15個錯分為其他類,預測正確率為25%;
將軍112個樣本有92個預測正確,20個錯分為其他類,預測正確率為82.14%。
邏輯迴歸演算法——分類矩陣


說明:
其他類的538個樣本有526個預測正確,6個錯分為軍師類,6個錯分為將軍類,預測正確率為97.77%;
軍師20個樣本有5個預測正確,15個錯分為其他類,預測正確率為25%;
將軍112個樣本有88個預測正確,24個錯分為其他類,預測正確率為78.57%。
關聯演算法——分類矩陣

說明:
其他類的538個樣本有519個預測正確,19個錯分為軍師類,預測正確率為96.47%;
軍師20個樣本有0個預測正確,20個錯分為其他類,預測正確率為0%;
將軍112個樣本有88個預測正確,24個錯分為其他類,預測正確率為78.57%。
分類矩陣——預測正確率彙總分析:

其他

軍師

將軍

神經網路演算法

97.40%

25%

82.14%

邏輯迴歸演算法

97.77%

25%

78.57%

決策樹演算法

100%

0%

65.18%

關聯演算法

96.47%

0%

78.57%

聚類分析演算法

99.63%

0%

55.36%

Naive Bayes 演算法

89.59%

65%

82.14%

可以看出Naive Bayes 演算法在預測軍師身份正確率最高,達到65%,決策樹演算法、關聯演算法、聚類分析演算法為0%,神經網路演算法、邏輯迴歸演算法為25%;
決策樹演算法在預測其他身份正確率最高,達到100%;
神經網路演算法、Naive Bayes 演算法在預測將軍身份正確率並列,達到82.14%。

準確性驗證示例2:——基於個股資料
資料準備:



挖掘模型依次為:
StockClustering 聚類分析演算法
StrockDecisionTrees 決策樹演算法
StockNeuralNetWork 神經網路演算法
StockLogistic 邏輯迴歸演算法

提升圖:

依次排名為:
1. 邏輯迴歸演算法(49.73% 0.52)
2. 神經網路演算法(49.63% 0.53)
3. 聚類分析演算法(48.13% 0.51)
4. 決策樹演算法(47.28% 0.50)
聚類分析演算法——分類矩陣:

說明:
持平的114個樣本有0個預測正確,91個錯分為跌,23個錯分為漲,預測正確率為0%;
跌的443個樣本有340個預測正確,103個錯分為漲,預測正確率為76.75%;
漲的380個樣本有111個預測正確,269個錯分為跌,預測正確率為29.21%。

決策樹演算法——分類矩陣:

說明:
持平的114個樣本有0個預測正確,114個錯分為跌,預測正確率為0%;
跌的443個樣本有443個預測正確,預測正確率為100.00%;
漲的380個樣本有0個預測正確,380個錯分為跌,預測正確率為0%。

神經網路演算法——分類矩陣:

說明:
持平的114個樣本有0個預測正確,60個錯分為跌,54個錯分為漲,預測正確率為0%;
跌的443個樣本有277個預測正確,166個錯分為漲,預測正確率為62.53%;
漲的380個樣本有188個預測正確,192個錯分為跌,預測正確率為49.47%。

邏輯迴歸演算法——分類矩陣:

說明:
持平的114個樣本有0個預測正確,89個錯分為跌,25個錯分為漲,預測正確率為0%;
跌的443個樣本有380個預測正確,63個錯分為漲,預測正確率為85.78%;
漲的380個樣本有86個預測正確,294個錯分為跌,預測正確率為22.63%。

分類矩陣——預測正確率彙總分析:

持平

邏輯迴歸演算法

0%

85.78%

22.63%

神經網路演算法

0%

62.53%

49.47%

聚類分析演算法

0%

76.75%

29.21%

決策樹演算法

0%

100.00%

0%

相關推薦

BI點兒資料各類演算法——準確性驗證

準確性驗證示例1:——基於三國志11資料庫 資料準備: 挖掘模型:依次為:Naive Bayes 演算法、聚類分析演算法、決策樹演算法、神經網路演算法、邏輯迴歸演算法、關聯演算法提升圖: 依次排名為: 1. 神經網路演算法(92.69% 0.99)2. 邏輯迴歸演算法(92.39% 0.99)3. 決策

BI點兒資料的藝術》理解維度資料倉庫——事實表、維度表、聚合表

事實表 在多維資料倉庫中,儲存度量值的詳細值或事實的表稱為“事實表”。一個按照州、產品和月份劃分的銷售量和銷售額儲存的事實表有5個列,概念上與下面的示例類似。  Sate Product Mouth Units Dollars

BI點兒》Microsoft 線性迴歸演算法

Microsoft 線性迴歸演算法是 Microsoft 決策樹演算法的一種變體,有助於計算依賴變數和獨立變數之間的線性關係,然後使用該關係進行預測。該關係採用的表示形式是最能代表資料序列的線的公式。例如,以下關係圖中的線是資料最可能的線性表示形式。 關係圖中的每個資料點都有一個與該資料點與迴歸線之間距離關

BI點兒》Microsoft 神經網路演算法

Microsoft神經網路是迄今為止最強大、最複雜的演算法。要想知道它有多複雜,請看SQL Server聯機叢書對該演算法的說明:“這個演算法通過建立多層感知神經元網路,建立分類和迴歸挖掘模型。與Microsoft決策樹演算法類似,在給定了可預測屬性的每個狀態時, Microsoft神經網路演算法計算輸入屬性

BI點兒》Microsoft 決策樹演算法——找出三國武將特性分佈,獻給廣大的三國愛好者們

根據遊戲《三國志11》武將資料,利用決策樹分析,找出三國武將特性分佈。其中變數包括統率、武力、智力、政治、魅力、身分。變數說明:統率:武將帶兵出征時的部隊防禦力。統帥越高受到普通攻擊與兵法攻擊越少。武力:武將帶兵出征時的部隊攻擊力,武力越高發動兵法或者普通攻擊時對地方部隊的傷害就越高;並且當發動單挑時雙方武將

BI點兒》Microsoft 決策樹演算法

Microsoft 決策樹演算法是由 Microsoft SQL Server Analysis Services 提供的分類和迴歸演算法,用於對離散和連續屬性進行預測性建模。對於離散屬性,該演算法根據資料集中輸入列之間的關係進行預測。它使用這些列的值(也稱之為狀態)預測指定為可預測的列的狀態。具體地說,該演

BI點兒》淺析十三種常用的資料的技術

一、前沿 資料探勘就是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的但又是潛在有用的資訊和知識的過程。資料探勘的任務是從資料集中發現模式,可以發現的模式有很多種,按功能可以分為兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。在應用

BI點兒資料初探

什麼是資料探勘? 資料探勘(Data Mining),又稱資訊發掘(Knowledge Discovery),是用自動或半自動化的方法在資料中找到潛在的,有價值的資訊和規則。 資料探勘技術來源於資料庫,統計和人工智慧。 資料探勘能夠做什麼 對企業中產生的大量的資料進行分析,找出其中潛藏的規

BI點兒資料的主要方法

一、迴歸分析目的:設法找出變數間的依存(數量)關係, 用函式關係式表達出來。所謂迴歸分析法,是在掌握大量觀察資料的基礎上,利用數理統計方法建立因變數與自變數之間的迴歸關係函式表示式(稱迴歸方程式)。迴歸分析中,當研究的因果關係只涉及因變數和一個自變數時,叫做一元迴歸分析;當研究的因果關係涉及因變數和兩個或兩個

BI點兒資料流轉換——查詢轉換

查詢轉換通過聯接輸入列中的資料和引用資料集中的列來執行查詢。是完全匹配查詢。在源表中查詢與字表能關聯的所有源表記錄。準備資料。源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess資料流任務設計圖: 設計步驟: (adsbygo

BI點兒資料流轉換——多播、Union All、合併、合併聯接

建立測試資料: CREATE TABLE FactResults ( Name VARCHAR(50) , Course VARCHAR(50) , Score INT ) INSERT INTO FactResults

BI點兒》SSRS圖表和儀表——雷達圖分析三國超一流謀士、統帥資料(圖文並茂)

雷達圖分析三國超一流謀士、統帥資料,獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的瞭解 建立資料環境: -- 抽取三國超一流謀士TOP 10資料 DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [統率]

BI點兒》運用標準計分和離差——分析三國超一流統帥綜合實力排名 絕對客觀,資料說話

資料分析基礎概念:標準計分: 1、無論作為變數的滿分為幾分,其標準計分的平均數勢必為0,而其標準差勢必為1。2、無論作為變數的單位是什麼,其標準計分的平均數勢必為0,而其標準差勢必為1。公式為: 離差:離差就是應用標準計分所得的數值。1、無論作為變數的滿分為幾分,其離差的平均數勢必為50,而其標準差勢必為1

BI點兒資料流轉換——OLE DB 命令轉換

OLE DB命令對資料流中的資料行執行一個OLE DB命令。它針對資料表中的每一行進行更新操作,可以事先將要更新的資料存放在表中。或者針對一個有輸入引數的儲存過程,可以將這些引數存放在一個數據表中,不用每次都輸入引數。示例資料準備: CREATE TABLE SourceParametersForSt

BI點兒資料流轉換——排序

排序轉換允許對資料流中的資料按照某一列進行排序。這是五個常用的轉換之一。連線資料來源開啟編輯介面,編輯這種任務。不想設定為排序列的欄位不要選中,預設情況下所有列都會選中。如圖所示,按照TotalSugar_Cnt排序,並將所有列輸出。 在底部的表格中,可以設定輸出列的別名,是否按照列來排序。Sort Ord

BI點兒》三國資料分析系列——蜀漢五虎上將與魏五子良將武力分析,絕對的經典分析

獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的瞭解 資料分析基礎概念:集中趨勢分析是指在大量測評資料分佈中,測評資料向某點集中的情況。總體(population)是指客觀存在的,並在同一性質的基礎上結合起來的許多個別單位的整體,即具有某一特性的一類事物的全體,又叫母體或全域。簡單地

BI點兒資料流轉換——資料轉換

資料轉換執行類似於T-SQL中的函式CONVERT或CAST的功能。資料轉換的編輯介面如圖,選擇需要轉換的列,在DataType下拉列表中選擇需要的資料型別。Output Alias欄內設定輸出時使用的別名。 (adsbygoogle = window.adsbygoogle |

BI點兒資料流轉換——匯入列、匯出列

匯入列: 匯入列例子現在來做一個例子:建立路徑D:\Pictures隨便在路徑D:\Pictures中貼上4個比較小的影象檔案命名為01.png、02.png、03.png、04.png在路徑D:\Pictures內建立一個txt檔案命名為filelist.txt,檔案內容如下D:\Pictures\01.

BI點兒資料流轉換——字詞查詢轉換

字詞查詢轉換將從轉換輸入列的文字中提取的字詞與引用表中的字詞進行匹配,然後計算出查詢表中的字詞在輸入資料集中出現的次數,並將計數與引用表中的此字詞一併寫入轉換輸出的列中。此轉換對於建立基於輸入文字並帶有詞頻統計資訊的自定義詞列表很有用。 本章功能:取出一個表中某欄位的資料,並取出另一個表中的關鍵詞,判斷關鍵

BI點兒資料流轉換——逆透視轉換

  逆透視轉換將來自單個記錄中多個列的值擴充套件為單個列中具有同樣值的多個記錄,使得非規範的資料整合為較規範的版本。例如,每個客戶在列出客戶名的資料集中各佔一行,在該行的各列中顯示購買的產品和數量。逆透視轉換將資料集規範之後,客戶購買的每種產品在該資料集中各佔一行。   我們下一步是進行逆透視。與透視配置不