1. 程式人生 > >《BI那點兒事》資料探勘初探

《BI那點兒事》資料探勘初探

什麼是資料探勘?

  • 資料探勘(Data Mining),又稱資訊發掘(Knowledge Discovery),是用自動或半自動化的方法在資料中找到潛在的,有價值的資訊和規則。
  • 資料探勘技術來源於資料庫,統計和人工智慧。

資料探勘能夠做什麼

對企業中產生的大量的資料進行分析,找出其中潛藏的規則
更加清晰的瞭解目前的業務執行狀況
使得決策者把握未來的決策方向有了科學的依據
預測銷售額

  • 向特定客戶傳送郵件
  • 確定可能需要搭售的產品
  • 查詢客戶將產品放入購物車的順序序列
  • ......

資料探勘演算法
資料探勘是從特定形式的資料中提煉知識的過程,其主要任務是對資料的描述、分類和預測。資料探勘常用的資料預測技術包括線性迴歸、最小二乘法和神經網路。

關於分析服務另外一個比較有意思的就是資料探勘,在商業智慧中,資料探勘是其中最高的一個層次。現在流行的大資料,最終往往也要靠資料探勘來體現其價值。

如果說,BI的過程可以看成是資料的昨天,今天和明天,資料的昨天,通過報表告訴你的業務之前發生了什麼,資料的今天,通過多維分析等工具告訴你這些為什麼會發生,那麼資料的明天,就是通過資料探勘演算法,對已有的海量歷史資料進行挖掘,從而讓你知道你的業務未來會是什麼樣。

微軟的資料探勘工具包含了很多演算法,比較常見的比如貝葉斯,決策樹,關聯規則和時序分析等。
資料探勘會分析樣本資料,從中發現規則,然後用於對未來未知資料的預測。通常用來比如電商網站的商品推薦,潛在客戶分析,以及客戶分類等問題之上。

序號

資料探勘技術

說明

1

Microsoft Naive Bayes

貝葉斯模型

Microsoft Naive Bayes 演算法將所有輸入屬性都看作是獨立的,並計算每對輸入屬性值和預測屬性值的概率。此演算法可用於分類和預測。

2

Microsoft 關聯規則

Microsoft 關聯演算法使用各屬性值或事務項之間的相關性統計來分析資料。

3

Microsoft 聚類分析

Microsoft 聚類分析演算法查詢屬性值的多維表示形式中資料的自然分組。此演算法在需要發現一般分組時很有用。

4

Microsoft 決策樹

Microsoft 決策樹演算法是一種適合預測性建模的分類演算法。該演算法支援離散屬性和連續屬性的預測。

5

Microsoft 邏輯迴歸

Microsoft 邏輯迴歸演算法是一種適合迴歸建模的迴歸演算法。該演算法是 Microsoft 神經網路演算法的一種,是通過消除隱藏層獲得的。該演算法支援對離散屬性和連續屬性進行預測。

6

Microsoft 神經網路

Microsoft 神經網路演算法

7

Microsoft 時序

Microsoft 時序演算法可以分析與時間相關的資料,以便根據時序分析發現各種模式,如月銷售額模式和年利潤模式。

8

Microsoft 順序分析和聚類分析

Microsoft 順序分析和聚類分析演算法綜合了其他兩項資料探勘技術: 順序分析和聚類分析。此演算法分析與順序相關的模式並對進行聚類。

9

Microsoft 線性迴歸

Microsoft 線性迴歸演算法是一種適合迴歸建模的迴歸演算法。該演算法是 Microsoft 決策樹演算法的一種,是通過禁用拆分(整個迴歸公式放在單個根節點中)獲得的。該演算法支援對連續屬性進行預測。

資料探勘的過程,跟其它IT專案一樣,大概可以劃分為如下幾個過程。首先,定義問題,然後準備和瀏覽資料,然後生成和驗證模型,最後部署和更新模型。

這個過程不一定是一口氣道底的,比如在模型中發現沒有需要的資料那麼就需要重新對資料進行準備,或者在模型驗證階段發現有問題那麼可能需要重新定義模型。
資料探勘用到的查詢語句是DMX,它可以用來建立和處理挖掘模型,並且做預測查詢。

相關推薦

BI點兒資料的藝術》理解維度資料倉庫——事實表、維度表、聚合表

事實表 在多維資料倉庫中,儲存度量值的詳細值或事實的表稱為“事實表”。一個按照州、產品和月份劃分的銷售量和銷售額儲存的事實表有5個列,概念上與下面的示例類似。  Sate Product Mouth Units Dollars

BI點兒資料初探

什麼是資料探勘? 資料探勘(Data Mining),又稱資訊發掘(Knowledge Discovery),是用自動或半自動化的方法在資料中找到潛在的,有價值的資訊和規則。 資料探勘技術來源於資料庫,統計和人工智慧。 資料探勘能夠做什麼 對企業中產生的大量的資料進行分析,找出其中潛藏的規

BI點兒資料各類演算法——準確性驗證

準確性驗證示例1:——基於三國志11資料庫 資料準備: 挖掘模型:依次為:Naive Bayes 演算法、聚類分析演算法、決策樹演算法、神經網路演算法、邏輯迴歸演算法、關聯演算法提升圖: 依次排名為: 1. 神經網路演算法(92.69% 0.99)2. 邏輯迴歸演算法(92.39% 0.99)3. 決策

BI點兒》淺析十三種常用的資料的技術

一、前沿 資料探勘就是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的但又是潛在有用的資訊和知識的過程。資料探勘的任務是從資料集中發現模式,可以發現的模式有很多種,按功能可以分為兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。在應用

BI點兒資料的主要方法

一、迴歸分析目的:設法找出變數間的依存(數量)關係, 用函式關係式表達出來。所謂迴歸分析法,是在掌握大量觀察資料的基礎上,利用數理統計方法建立因變數與自變數之間的迴歸關係函式表示式(稱迴歸方程式)。迴歸分析中,當研究的因果關係只涉及因變數和一個自變數時,叫做一元迴歸分析;當研究的因果關係涉及因變數和兩個或兩個

BI點兒資料流轉換——查詢轉換

查詢轉換通過聯接輸入列中的資料和引用資料集中的列來執行查詢。是完全匹配查詢。在源表中查詢與字表能關聯的所有源表記錄。準備資料。源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess資料流任務設計圖: 設計步驟: (adsbygo

BI點兒資料流轉換——多播、Union All、合併、合併聯接

建立測試資料: CREATE TABLE FactResults ( Name VARCHAR(50) , Course VARCHAR(50) , Score INT ) INSERT INTO FactResults

BI點兒》SSRS圖表和儀表——雷達圖分析三國超一流謀士、統帥資料(圖文並茂)

雷達圖分析三國超一流謀士、統帥資料,獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的瞭解 建立資料環境: -- 抽取三國超一流謀士TOP 10資料 DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [統率]

BI點兒》運用標準計分和離差——分析三國超一流統帥綜合實力排名 絕對客觀,資料說話

資料分析基礎概念:標準計分: 1、無論作為變數的滿分為幾分,其標準計分的平均數勢必為0,而其標準差勢必為1。2、無論作為變數的單位是什麼,其標準計分的平均數勢必為0,而其標準差勢必為1。公式為: 離差:離差就是應用標準計分所得的數值。1、無論作為變數的滿分為幾分,其離差的平均數勢必為50,而其標準差勢必為1

BI點兒資料流轉換——OLE DB 命令轉換

OLE DB命令對資料流中的資料行執行一個OLE DB命令。它針對資料表中的每一行進行更新操作,可以事先將要更新的資料存放在表中。或者針對一個有輸入引數的儲存過程,可以將這些引數存放在一個數據表中,不用每次都輸入引數。示例資料準備: CREATE TABLE SourceParametersForSt

BI點兒資料流轉換——排序

排序轉換允許對資料流中的資料按照某一列進行排序。這是五個常用的轉換之一。連線資料來源開啟編輯介面,編輯這種任務。不想設定為排序列的欄位不要選中,預設情況下所有列都會選中。如圖所示,按照TotalSugar_Cnt排序,並將所有列輸出。 在底部的表格中,可以設定輸出列的別名,是否按照列來排序。Sort Ord

BI點兒》三國資料分析系列——蜀漢五虎上將與魏五子良將武力分析,絕對的經典分析

獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的瞭解 資料分析基礎概念:集中趨勢分析是指在大量測評資料分佈中,測評資料向某點集中的情況。總體(population)是指客觀存在的,並在同一性質的基礎上結合起來的許多個別單位的整體,即具有某一特性的一類事物的全體,又叫母體或全域。簡單地

BI點兒資料流轉換——資料轉換

資料轉換執行類似於T-SQL中的函式CONVERT或CAST的功能。資料轉換的編輯介面如圖,選擇需要轉換的列,在DataType下拉列表中選擇需要的資料型別。Output Alias欄內設定輸出時使用的別名。 (adsbygoogle = window.adsbygoogle |

BI點兒資料流轉換——匯入列、匯出列

匯入列: 匯入列例子現在來做一個例子:建立路徑D:\Pictures隨便在路徑D:\Pictures中貼上4個比較小的影象檔案命名為01.png、02.png、03.png、04.png在路徑D:\Pictures內建立一個txt檔案命名為filelist.txt,檔案內容如下D:\Pictures\01.

BI點兒資料流轉換——字詞查詢轉換

字詞查詢轉換將從轉換輸入列的文字中提取的字詞與引用表中的字詞進行匹配,然後計算出查詢表中的字詞在輸入資料集中出現的次數,並將計數與引用表中的此字詞一併寫入轉換輸出的列中。此轉換對於建立基於輸入文字並帶有詞頻統計資訊的自定義詞列表很有用。 本章功能:取出一個表中某欄位的資料,並取出另一個表中的關鍵詞,判斷關鍵

BI點兒資料流轉換——逆透視轉換

  逆透視轉換將來自單個記錄中多個列的值擴充套件為單個列中具有同樣值的多個記錄,使得非規範的資料整合為較規範的版本。例如,每個客戶在列出客戶名的資料集中各佔一行,在該行的各列中顯示購買的產品和數量。逆透視轉換將資料集規範之後,客戶購買的每種產品在該資料集中各佔一行。   我們下一步是進行逆透視。與透視配置不

BI點兒資料流轉換——透視

這個和T-SQL中的PIVOT和UNPIVOT的作用是一樣的。資料透視轉換可以將資料規範或使它在報表中更具可讀性。 通過透視列值的輸入資料,透視轉換將規範的資料集轉變成規範程度稍低、但更為簡潔的版本。例如,在列有客戶名稱、產品和購買數量的規範的 Orders 資料集中,任何購買多種產品的客戶都有多行,每一行

BI點兒資料流轉換——條件性拆分

根據條件分割資料是一個在資料流中新增複雜邏輯的方法,它允許根據條件將資料輸出到其他不同的路徑中。例如,可以將TotalSugar< 27.4406的輸出到一個路徑,TotalSugar >= 27.4406的輸出到另一個路徑。如圖。可以從上面的屬性結構中拖放一個列或者程式碼段,然後根據邏輯重新命名

BI點兒資料流轉換——派生列

派生列轉換通過對轉換輸入列應用表示式來建立新列值。 表示式可以包含來自轉換輸入的變數、函式、運算子和列的任意組合。 結果可作為新列新增,也可作為替換值插入到現有列。 派生列轉換可定義多個派生列,任何變數或輸入列都可以出現在多個表示式中。可以使用此轉換執行下列任務: 將不同列的資料連線到一個派生列中。 例

BI點兒資料流轉換——百分比抽樣、行抽樣

百分比抽樣和行抽樣可以從資料來源中隨機選擇一組資料。這兩種task都可以產生兩組輸出,一組是隨機選擇的,另一組是沒有被選擇的。可以將這些選擇出的資料傳送到開發或者測試伺服器上。這個Task的最合適的應用是建立資料探勘模型然後,使用這些抽樣資料來驗證這個模型。 編輯這種task,選擇要抽取的行數或者 百分比,