1. 程式人生 > >《BI那點兒事》淺析十三種常用的資料探勘的技術

《BI那點兒事》淺析十三種常用的資料探勘的技術

一、前沿
資料探勘就是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的但又是潛在有用的資訊和知識的過程。資料探勘的任務是從資料集中發現模式,可以發現的模式有很多種,按功能可以分為兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。在應用中往往根據模式的實際作用細分為以下幾種:分類,估值,預測,相關性分析,序列,時間序列,描述和視覺化等。
資料探勘涉及的學科領域和技術很多,有多種分類法。
根據挖掘任務分,可分為分類或預測模型發現、資料總結、聚類、關聯規則發現、序列模式發現、依賴關係或依賴模型發現、異常和趨勢發現等等;
根據挖掘物件分

,有關係資料庫、面向物件資料庫、空間資料庫、時態資料庫、文字資料來源、多媒體資料庫、異質資料庫、遺產資料庫以及環球網Web;
根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網路方法和資料庫方法。

  • 機器學習中,可細分為:歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳演算法等。
  • 統計方法中,可細分為:迴歸分析(多元迴歸、自迴歸等)、判別分析(貝葉斯判別、費歇爾判別、非引數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。
  • 神經網路方法中,可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵對映、競爭學習等)等。
  • 資料庫方法主要是多維資料分析或OLAP方法,另外還有面向屬性的歸納方法等等。

二、資料探勘技術簡述
資料探勘的技術有很多種,按照不同的分類有不同的分類法。下面著重討論一下資料探勘中常用的一些技術:統計技術,關聯規則,基於歷史的分析,遺傳演算法,聚集檢測,連線分析,決策樹,神經網路,粗糙集,模糊集,迴歸分析,差別分析,概念描述等十三種常用的資料探勘的技術。
1、統計技術
資料探勘涉及的科學領域和技術很多,如統計技術。統計技術對資料集進行挖掘的主要思想是:統計的方法對給定的資料集合假設了一個分佈或者概率模型(例如一個正態分佈)然後根據模型採用相應的方法來進行挖掘。
2、關聯規則
資料關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之I司存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中資料的關聯函式,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
3、基於歷史的MBR(Memory-based Reasoning)分析


先根據經驗知識尋找相似的情況,然後將這些情況的資訊應用於當前的例子中。這個就是MBR(Memory Based Reasoning)的本質。MBR首先尋找和新記錄相似的鄰居,然後利用這些鄰居對新資料進行分類和估值。使用MBR有三個主要問題,尋找確定的歷史資料;決定表示歷史資料的最有效的方法;決定距離函式、聯合函式和鄰居的數量。
4、遺傳演算法GA(Genetic Algorithms)
基於進化理論,並採用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。主要思想是:根據適者生存的原則,形成由當前群體中最適合的規則組成新的群體,以及這些規則的後代。典型情況下,規則的適合度(Fitness)用它對訓練樣本集的分類準確率評估。
5、聚集檢測
將物理或抽象物件的集合分組成為由類似的物件組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組資料物件的集合,這些物件與同一個簇中的物件彼此相似,與其它簇中的物件相異。相異度是根據描述物件的屬眭值來計算的,距離是經常採用的度量方式。
6、連線分析
連線分析,Link analysis,它的基本理論是圖論。圖論的思想是尋找一個可以得出好結果但不是完美結果的演算法,而不是去尋找完美的解的演算法。連線分析就是運用了這樣的思想:不完美的結果如果是可行的,那麼這樣的分析就是一個好的分析。利用連線分析,可以從一些使用者的行為中分析出一些模式;同時將產生的概念應用於更廣的使用者群體中。
7、決策樹
決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。
8、神經網路
在結構上,可以把一個神經網路劃分為輸入層、輸出層和隱含層。輸入層的每個節點對應—個個的預測變數。輸出層的節點對應目標變數,可有多個。在輸入層和輸出層之間是隱含層(對神經網路使用者來說不可見),隱含層的層數和每層節點的個數決定了神經網路的複雜度。
除了輸入層的節點,神經網路的每個節點都與很多它前面的節點(稱為此節點的輸入節點)連線在一起,每個連線對應一個權重Wxy,此節點的值就是通過它所有輸入節點的值與對應連線權重乘積的和作為—個函式的輸入而得到,我們把這個函式稱為活動函式或擠壓函式。
9、粗糙集
粗糙集理論基於給定訓練資料內部的等價類的建立。形成等價類的所有資料樣本是不加區分的,即對於描述資料的屬性,這些樣本是等價的。給定現實世界資料,通常有些類不能被可用的屬性區分。粗糙集就是用來近似或粗略地定義這種類。
10、模糊集
模糊集理論將模糊邏輯引入資料探勘分類系統,允許定義“模糊”域值或邊界。模糊邏輯使用0.0和1.0之間的真值表示一個特定的值是一個給定成員的程度,而不是用類或集合的精確截斷。模糊邏輯提供了在高抽象層處理的便利。
11、迴歸分析
迴歸分析分為線性迴歸、多元迴歸和非線性同歸。線上性迴歸中,資料用直線建模,多元迴歸是線性迴歸的擴充套件,涉及多個預測變數。非線性迴歸是在基本線性模型上新增多項式項形成非線性同門模型。
12、差別分析
差別分析的目的是試圖發現數據中的異常情況,如噪音資料,欺詐資料等異常資料,從而獲得有用資訊。
13、概念描述
概念描述就是對某類物件的內涵進行描述,並概括這類物件的有關特徵。概念描述分為特徵性描述和區別性描述,前者描述某類物件的共同特徵,後者描述不同類物件之間的區別,生成一個類的特徵性描述只涉及該類物件中所有物件的共性。
三、結束語
由於人們急切需要將存在於資料庫和其他資訊庫中的資料轉化為有用的知識,因而資料探勘被認為是一門新興的、非常重要的、具有廣闊應用前景和富有挑戰性的研究領域,並應起了眾多學科(如資料庫、人工智慧、統計學、資料倉庫、線上分析處理、專家系統、資料視覺化、機器學習、資訊檢索、神經網路、模式識別、高效能運算機等)研究者的廣泛注意。作為一門新興的學科,資料探勘是由上述學科相互交叉、相互融合而形成的。隨著資料探勘的進一步發展,它必然會帶給使用者更大的利益。

相關推薦

BI點兒淺析十三常用資料技術

一、前沿 資料探勘就是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的但又是潛在有用的資訊和知識的過程。資料探勘的任務是從資料集中發現模式,可以發現的模式有很多種,按功能可以分為兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。在應用

BI點兒》Microsoft 線性迴歸演算法

Microsoft 線性迴歸演算法是 Microsoft 決策樹演算法的一種變體,有助於計算依賴變數和獨立變數之間的線性關係,然後使用該關係進行預測。該關係採用的表示形式是最能代表資料序列的線的公式。例如,以下關係圖中的線是資料最可能的線性表示形式。 關係圖中的每個資料點都有一個與該資料點與迴歸線之間距離關

BI點兒資料各類演算法——準確性驗證

準確性驗證示例1:——基於三國志11資料庫 資料準備: 挖掘模型:依次為:Naive Bayes 演算法、聚類分析演算法、決策樹演算法、神經網路演算法、邏輯迴歸演算法、關聯演算法提升圖: 依次排名為: 1. 神經網路演算法(92.69% 0.99)2. 邏輯迴歸演算法(92.39% 0.99)3. 決策

BI點兒資料初探

什麼是資料探勘? 資料探勘(Data Mining),又稱資訊發掘(Knowledge Discovery),是用自動或半自動化的方法在資料中找到潛在的,有價值的資訊和規則。 資料探勘技術來源於資料庫,統計和人工智慧。 資料探勘能夠做什麼 對企業中產生的大量的資料進行分析,找出其中潛藏的規

BI點兒》Microsoft 神經網路演算法

Microsoft神經網路是迄今為止最強大、最複雜的演算法。要想知道它有多複雜,請看SQL Server聯機叢書對該演算法的說明:“這個演算法通過建立多層感知神經元網路,建立分類和迴歸挖掘模型。與Microsoft決策樹演算法類似,在給定了可預測屬性的每個狀態時, Microsoft神經網路演算法計算輸入屬性

BI點兒》Microsoft 順序分析和聚類分析演算法

Microsoft 順序分析和聚類分析演算法是由 Microsoft SQL Server Analysis Services 提供的一種順序分析演算法。您可以使用該演算法來研究包含可通過下面的路徑或“順序”連結到的事件的資料。該演算法通過對相同的順序進行分組或分類來查詢最常見的順序。下面是一些順序示例:

BI點兒資料流轉換——查詢轉換

查詢轉換通過聯接輸入列中的資料和引用資料集中的列來執行查詢。是完全匹配查詢。在源表中查詢與字表能關聯的所有源表記錄。準備資料。源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess資料流任務設計圖: 設計步驟: (adsbygo

BI點兒資料流轉換——多播、Union All、合併、合併聯接

建立測試資料: CREATE TABLE FactResults ( Name VARCHAR(50) , Course VARCHAR(50) , Score INT ) INSERT INTO FactResults

BI點兒》Microsoft 決策樹演算法——找出三國武將特性分佈,獻給廣大的三國愛好者們

根據遊戲《三國志11》武將資料,利用決策樹分析,找出三國武將特性分佈。其中變數包括統率、武力、智力、政治、魅力、身分。變數說明:統率:武將帶兵出征時的部隊防禦力。統帥越高受到普通攻擊與兵法攻擊越少。武力:武將帶兵出征時的部隊攻擊力,武力越高發動兵法或者普通攻擊時對地方部隊的傷害就越高;並且當發動單挑時雙方武將

BI點兒資料的主要方法

一、迴歸分析目的:設法找出變數間的依存(數量)關係, 用函式關係式表達出來。所謂迴歸分析法,是在掌握大量觀察資料的基礎上,利用數理統計方法建立因變數與自變數之間的迴歸關係函式表示式(稱迴歸方程式)。迴歸分析中,當研究的因果關係只涉及因變數和一個自變數時,叫做一元迴歸分析;當研究的因果關係涉及因變數和兩個或兩個

BI點兒資料的藝術》理解維度資料倉庫——事實表、維度表、聚合表

事實表 在多維資料倉庫中,儲存度量值的詳細值或事實的表稱為“事實表”。一個按照州、產品和月份劃分的銷售量和銷售額儲存的事實表有5個列,概念上與下面的示例類似。  Sate Product Mouth Units Dollars

BI點兒》SSRS圖表和儀表——雷達圖分析三國超一流謀士、統帥資料(圖文並茂)

雷達圖分析三國超一流謀士、統帥資料,獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的瞭解 建立資料環境: -- 抽取三國超一流謀士TOP 10資料 DECLARE @t1 TABLE ( [姓名] NVARCHAR(255) , [統率]

BI點兒》運用標準計分和離差——分析三國超一流統帥綜合實力排名 絕對客觀,資料說話

資料分析基礎概念:標準計分: 1、無論作為變數的滿分為幾分,其標準計分的平均數勢必為0,而其標準差勢必為1。2、無論作為變數的單位是什麼,其標準計分的平均數勢必為0,而其標準差勢必為1。公式為: 離差:離差就是應用標準計分所得的數值。1、無論作為變數的滿分為幾分,其離差的平均數勢必為50,而其標準差勢必為1

BI點兒》Microsoft 決策樹演算法

Microsoft 決策樹演算法是由 Microsoft SQL Server Analysis Services 提供的分類和迴歸演算法,用於對離散和連續屬性進行預測性建模。對於離散屬性,該演算法根據資料集中輸入列之間的關係進行預測。它使用這些列的值(也稱之為狀態)預測指定為可預測的列的狀態。具體地說,該演

BI點兒資料流轉換——OLE DB 命令轉換

OLE DB命令對資料流中的資料行執行一個OLE DB命令。它針對資料表中的每一行進行更新操作,可以事先將要更新的資料存放在表中。或者針對一個有輸入引數的儲存過程,可以將這些引數存放在一個數據表中,不用每次都輸入引數。示例資料準備: CREATE TABLE SourceParametersForSt

BI點兒》ETL中的關鍵技術

ETL(Extract/Transformation/Load)是BI/DW的核心和靈魂,按照統一的規則整合並提高資料的價值,是負責完成資料從資料來源向目標資料倉庫轉化的過程,是實施資料倉庫的重要步驟。 ETL過程中的主要環節就是資料抽取、資料轉換和加工、資料裝載。為了實現這些功能,各個ETL工具一般會

BI點兒》SQL Server 2008體系架構

Microsoft SQL Server是一個提供了聯機事務處理、資料倉庫、電子商務應用的資料庫和資料分析的平臺。體系架構是描述系統組成要素和要素之間關係的方式。Microsoft SQL Server系統的體系結構是對Microsoft SQL Server的主要組成部分和這些組成部分之間關係的描述。Mic

BI點兒》Cube的儲存

關係 OLAP (ROLAP)ROLAP的基本資料和聚合資料均存放在關係資料庫中;ROLAP 儲存模式使得分割槽的聚合儲存在關係資料庫的表(在分割槽資料來源中指定)中。但是,可為分割槽資料使用 ROLAP 儲存模式,而不在關係資料庫中建立聚合。使用 ROLAP 的維度的資料實際上儲存在用於定義維度的表中。相對

BI點兒資料流轉換——排序

排序轉換允許對資料流中的資料按照某一列進行排序。這是五個常用的轉換之一。連線資料來源開啟編輯介面,編輯這種任務。不想設定為排序列的欄位不要選中,預設情況下所有列都會選中。如圖所示,按照TotalSugar_Cnt排序,並將所有列輸出。 在底部的表格中,可以設定輸出列的別名,是否按照列來排序。Sort Ord

BI點兒》三國資料分析系列——蜀漢五虎上將與魏五子良將武力分析,絕對的經典分析

獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的瞭解 資料分析基礎概念:集中趨勢分析是指在大量測評資料分佈中,測評資料向某點集中的情況。總體(population)是指客觀存在的,並在同一性質的基礎上結合起來的許多個別單位的整體,即具有某一特性的一類事物的全體,又叫母體或全域。簡單地