1. 程式人生 > >怎樣進行大資料的入門級學習

怎樣進行大資料的入門級學習

        大資料(巨量資料集合)是現代社會非常時髦的一個名詞。是資料科學的一個高階狀態。資料科學並沒有一個獨立的學科體系,統計學,機器學習,資料探勘,資料庫,分散式計算,雲端計算,資訊視覺化等技術或方法來對付資料。催生出了一些與大資料相關的職業,通過對資料的分析挖掘來影響企業的商業決策。

        國內,大資料的應用處於萌芽狀態,人才市場還不太成熟,每家公司對大資料工作的要求不盡相同:有的強調資料庫程式設計、有的突出應用數學和統計學知識、有的則要求有諮詢公司相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務型別和團隊分工,給這群與大資料打交道的人一些新的頭銜和定義:資料探勘工程師、大資料專家、資料研究員、使用者分析專家等都是經常在國內公司裡出現的

Title,我們將其統稱為“大資料工程師”。

  對於一些大公司來說,擁有碩博學歷的人是比較好的選擇,不過阿里巴巴集團研究員薛貴榮強調,學歷並不是最主要的因素,能有大規模處理資料的經驗並且有喜歡在資料海洋中尋寶的好奇心會更適合這個工作。

  那麼如何進行大資料的入門級學習呢?我們需要了解大資料工程師是做什麼的以及需要具備什麼樣的能力。

我們做資料工作的三個大步驟:

      1、原始資料要經過一連串收集、提取、清洗、整理等等的預處理過程,才能形成高質量的資料;
      2
、我們想看看資料“長什麼樣”,有什麼特點和規律;
      3
、按照自己的需要,比如要對資料貼標籤分類,或者預測,或者想要從大量複雜的資料中提取有價值的且不易發現的資訊,都要對資料建模,得到

output

     這三個步驟未必嚴謹,每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經驗來看,按照這個大思路走,資料一般不會做跑偏。