1. 程式人生 > >大資料的主要分析模式和分析技術

大資料的主要分析模式和分析技術

大資料的主要分析模式和分析技術

大資料時代所分析的資料的最主要特徵是“多源異構”,其分析過程是逐層抽象、降維、概括和解讀的過程。從資料採集的源頭進行劃分,可將大資料時代分析處理的資料物件劃分為以下幾個類別:

大資料的主要分析模式和分析技術

(1)各網頁中使用者的瀏覽次數、點選率,各種社交網站、動態網站網頁內容資訊的變化,搜尋引擎中關鍵詞的搜尋量、網路實時監控資料等網際網路資料。

(2)可以用於分析使用者行為、對系統的操作、以及系統執行狀態的日誌資料。

(3)在通訊領域中的各種訊號、信令資料,使用者的個人資訊以及通話位置、時長等資料。

(4)國民經濟中各領域、各行業的統計分析資料。

對於這些數量龐大的,來自不同源頭的非結構化資料。其分析模式的特點如下:對於網際網路產生的資料,其最主要的應用是建立搜尋引擎,通過搜尋引擎進行資料檢索、處理。

隨著技術的不斷髮展,個性化推薦引擎以及大資料分析引擎的問世能夠更加高效的在海量資料中分析得出更有價值的資訊;對於日誌資料,可對使用者點選瀏覽的行為日誌和系統執行行為日誌進行分析。使得系統能夠根據實際情況產生出更加智慧的結果。日誌資料與網頁資料的分析處理模式較為類似,都是通過細緻分析從而探尋出資料中蘊藏的價值。

這種資料分析處理模式稱為“離線批處理模式”;對於通訊領域的資料分析,分析決策人員會對經過細緻分析的資料進行統計歸納和查詢,並且在最短的時間內獲得最有價值的資訊。

以此來確保系統的互動性並最大限度地提升使用者體驗。這種資料分析處理模式稱為“查詢式分析”模式;對於網際網路以及國民經濟中重要行業的資料進行實時監控,這種模式稱為“實時資料分析處理“模式。

以上為依據時間特徵劃分的資料分析模式。而實現這些分析模式的主要方法有:分類、迴歸分析、聚類、關聯規則、神經網路、WEB資料探勘等。

要想從急劇增長的資料資源中挖掘分析出有價值的資訊,需要先進的分析技術作支撐。從巨集觀上看,大資料分析技術發展所面臨的問題均包含三個主要特徵:

(1)資料量龐大並以驚人的速度增長;

(2)資料種類與結構多樣化,並以半結構化和非結構化的資料為主;

(3)需要具備及時快速的分析速度,即實時分析。這些特徵使得傳統的資料分析技術無法滿足要求,更加先進的資料分析平臺才是大資料時代更好的選擇。

為了有效應對大資料時代資料分析問題的三個主要特徵以及滿足大資料分析的基本需求,當前以及未來一段時期內將主要通過分散式資料庫或者分散式計算叢集來對儲存於其內的海量資料進行由淺入深的分析和分類彙總。

例如,為滿足實時分析的需求通常會採用Qracle的Exadata 和EMC的GreenPlum。而目前分析處理大資料的應用最廣泛的核心技術為Hadoop。

Hadoop是由Apache基金會所開發的一個基於Java的分散式資料處理和分析的軟體基礎架構。

在這種架構下,使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。Hadoop能夠將數量龐大的資料分解成規模較小、易訪問的資料集併發送到多臺伺服器上進行分析,以此獲得高效的分析速率。該架構主要由檔案系統以及資料處理兩部分功能模組組成。