1. 程式人生 > >淺談大資料建模

淺談大資料建模

前言:建模的過程和方法,不斷地被開發和完善,你可能會說不同的資料型別,不同的業務場景,不同的需求,都會有不同的建模方法,我很贊同。但是我想說,不管你的資料是什麼,要在大資料中建立自己的資料模型這其中的套路還是有規律可尋的。

一.資料準備

二.執行探索性資料分析

三.建立初始模型

四.模型迭代構建

資料準備:在大資料計算中從來不嫌資料太多,相反的資料越多越好。只要資料量大就好麼?不是的,寧可要一小堆有潛質的礦石,我也不會去要山一樣的土堆。在你資料量儘可能大的同時,一定要注意你的資料質量。資料質量一般體現在資料的時間維度,和資料粒度上。時間維度當然是越長越好,我們拿計算降雨量來看,如果你要預測一個地區未來一年的降雨量,你拿今年一年的資料去預測明年的資料,肯定沒有我拿該地區過去一百年到現在的資料來預測明年降雨量客觀。關於資料的粒度,很多人都會認為,資料"全"就是粒度小,或者是粒度細,我對此抱有不同看法。我認為資料粒度體現在資料的劃分上,我們對現有資料的劃分情況,方可體現資料的粒度,假如我們可以得到的資料量,和維度上是一樣的,一個數據劃分比較詳細有很多資料關聯,另一個劃分很粗糙,那麼結果不言而喻。

執行探索性資料分析:我們對資料劃分,本身就是分析資料的一種體現,這個步驟可以讓你理解資料,獲得資料之間的關係,以及我們對於資料的直覺。當然我們對於資料的理解,和對於資料的直覺是簡歷在相關知識上的,如果你對現有資料一竅不通,你怎麼去進行探索性資料分析呢?資料視覺化,我認為是進行資料分析的關鍵。人腦無法與計算機相比,我們需要視覺化的介面來展示資料,這樣有利於我們對資料進行分析,像來自SAS,IBM,SAP或者QlikeTech和Tableau的視覺化產品,它們已經商業化了。對於資料探索是永遠不會停止的,我認為圖形化資料是一個很好的方式,但是你可能會有更好,更適合你的方式。有一篇關於資料分析的文章,我記憶尤新的一句話,我也非常贊同作者的看法,那就是:要知道何時停止探索。要探討這句話的意思,小編真的是停不下來,要知道何時停止探索,就是要明確你資料探索的標準,沒有標準你怎麼能在茫茫資料大海中撈針呢?

建立初始模型:這是一個至關重要的步驟,不管是否你對資料有深刻的研究,都不能跳過的一步。引用一下愛迪生的那句話“我並未失敗,我剛剛發現了10000種不成功的方式”。除非你建立初始模型,否則你無法準確評價模型的潛在影響。決策樹不失為一個好辦法,實踐是檢驗真理的唯一標準。

模型迭代構建:這應該是建模時間最長的一個階段,也可以說沒有時間終點的一個階段。每一次的迭代都是一次實踐的反饋,你要建立的模型是要經歷不同的場景的,是一個“有故事”的模型,故事越多越好。通常是沒有一個具體的評判標準來評判,你是否還有更好的建模,但是實際情況是,我們業務或者需求會有一個強制的時間視窗。就比如說,下個月客戶就要你的清單,那麼,你要做的就是在有限的時間裡,不斷地去迭代你的模型。