1. 程式人生 > >進階 | 一文讀懂大資料分析及挖掘技術

進階 | 一文讀懂大資料分析及挖掘技術

隨著大資料時代的到來,在大資料觀念不斷提出的今天,加強資料大資料探勘及時的應用已成為大勢所趨。

什麼是大資料探勘?

資料探勘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。

資料探勘物件

根據資訊儲存格式,用於挖掘的物件有關係資料庫、面向物件資料庫、資料倉庫、文字資料來源、多媒體資料庫、空間資料庫、時態資料庫、異質資料庫以及Internet等。

資料探勘流程

定義問題:清晰地定義出業務問題,確定資料探勘的目的。

資料準備:資料準備包括:選擇資料–在大型資料庫和資料倉庫目標中 提取資料探勘的目標資料集;資料預處理–進行資料再加工,包括檢查資料的完整性及資料的一致性、去噪聲,填補丟失的域,刪除無效資料等。

資料探勘:根據資料功能的型別和和資料的特點選擇相應的演算法,在淨化和轉換過的資料集上進行資料探勘。

結果分析:對資料探勘的結果進行解釋和評價,轉換成為能夠最終被使用者理解的知識。

資料探勘分類

直接資料挖掘:目標是利用可用的資料建立一個模型,這個模型對剩餘的資料,對一個特定的變數(可以理解成資料庫中表的屬性,即列)進行描述。

間接資料探勘:目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關係。

資料探勘的方法

1、神經網路方法

神經網路由於本身良好的魯棒性、自組織自適應性、並行處理、分佈儲存和高度容錯等特性非常適合解決資料探勘的問題,因此近年來越來越受到人們的關注。

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習扣群:805127855,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系  

2、遺傳演算法

遺傳演算法是一種基於生物自然選擇與遺傳機理的隨機搜尋演算法,是一種仿生全域性優化方法。遺傳演算法具有的隱含並行性、易於和其它模型結合等性質使得它在資料探勘中被加以應用。

3、決策樹方法

決策樹是一種常用於預測模型的演算法,它通過將大量資料有目的分類,從中找到一些有價值的,潛在的資訊。它的主要優點是描述簡單,分類速度快,特別適合大規模的資料處理。

4、粗集方法

粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外資訊;簡化輸入資訊的表達空間;演算法簡單,易於操作。粗集處理的物件是類似二維關係表的資訊表。

5、覆蓋正例排斥反例方法

它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與欄位取值構成的選擇子相容則捨去,相反則保留。按此思想迴圈所有正例種子,將得到正例的規則(選擇子的合取式)。

6、統計分析方法

在資料庫欄位項之間存在兩種關係:函式關係和相關關係,對它們的分析可採用統計學方法,即利用統計學原理對資料庫中的資訊進行分析。可進行常用統計、迴歸分析、相關分析、差異分析等。

7、模糊集方法

即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的複雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。

大數發掘技術,目前,還需要改進已有資料探勘和機器學習技術;開發資料網路挖掘、特異群組挖掘、圖挖掘等新型資料探勘技術;突破基於物件的資料連線、相似性連線等大資料融合技術;突破使用者興趣分析、網路行為分析、情感語義分析等面向領域的大資料探勘技術。

著重突破技術

1. 視覺化分析

不論是分析專家,還是普通使用者,在分析大資料時,最基本的要求就是對資料進行視覺化分析。經過視覺化分析後,大資料的特點可以直觀地呈現出來,將單一的表格變為豐富多彩的圖形模式,簡單明瞭、清晰直觀,更易於讀者接受。

2. 資料探勘演算法

資料探勘演算法是根據資料建立資料探勘模型的一組試探法和計算。為了建立該模型,演算法將首先分析使用者提供的資料,針對特定型別的模式和趨勢進行查詢。

並使用分析結果定義用於建立挖掘模型的最佳引數,將這些引數應用於整個資料集,以便提取可行模式和詳細統計資訊。

大資料分析的理論核心就是資料探勘演算法,資料探勘的演算法多種多樣,不同的演算法基於不同的資料型別和格式會呈現出資料所具備的不同特點。各類統計方法都能深入資料內部,挖掘出資料的價值。

為特定的分析任務選擇最佳演算法極具挑戰性,使用不同的演算法執行同樣的任務,會生成不同的結果,而某些演算法還會對同一個問題生成多種型別的結果。

3. 預測性分析

大資料分析最重要的應用領域之一就是預測性分析,預測性分析結合了多種高階分析功能,包括特別統計分析、預測建模、資料探勘、文字分析、實體分析、優化、實時評分、機器學習等。

從紛繁的資料中挖掘出其特點,可以幫助我們瞭解目前狀況以及確定下一步的行動方案,從依靠猜測進行決策轉變為依靠預測進行決策。它可幫助分析使用者的結構化和非結構化資料中的趨勢、模式和關係,運用這些指標來洞察預測將來事件,並作出相應的措施。

4. 語義引擎

非結構化資料的多元化給資料分析帶來新的挑戰,我們需要一套工具系統地去分析,提煉資料。語義引擎是語義技術最直接的應用,可以將人們從繁瑣的搜尋條目中解放出來,讓使用者更快、更準確、更全面地獲得所需資訊,提高使用者的網際網路體驗。

5. 資料質量和資料管理

大資料分析離不開資料質量和資料管理,高質量的資料和有效的資料管理無論是在學術研究還是在商業應用領域都極其重要,各個領域都需要保證分析結果的真實性和價值性

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習扣群:805127855,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系