1. 程式人生 > >給想進入大資料行業的朋友的建議(二)

給想進入大資料行業的朋友的建議(二)

我們在上一篇文章中給大家介紹了大資料中的各個環節的普及內容,大資料的環節有資料的收集、資料的傳輸、資料的轉換、資料的清洗、資料的儲存、資料的二次加工、資料的挖掘、資料的統計、資料的上層應用輸出。今天我們在這篇文章中給大家介紹一下大資料的第一個環節,那就是資料的收集。

在資料的收集階段,資料主要有4種存在方式,它們分別是第三方開放資料集、業務資料、服務日誌、行為上報資料,下面我們就給大家詳細大家的解答一下這些知識。

我們先說說第三方開放資料,目前爬取第三方開放資料的形式已經逐漸被認可,並且將會越來越多的人以及企業從網際網路開放資料集中獲取原始資料。針對於開放資料的獲取,爬蟲已經可以單獨形成一個體繫了,包括不同的爬蟲框架,以及近年來對於分散式爬蟲的技術需求等,所以需要學習Python知識,輔助其他相關指令碼知識。

當然,如果我們的資料是業務資料,那麼業務資料一般儲存在傳統的資料庫中,這就需要我們學習資料庫相關的技術知識,當然我們需要學會簡單的資料庫知識,這樣才能夠做到業務資料的收取。

如果我們想要對資料進行統一化的處理,而且還需要對資料的遷移,這就需要我們學習一些其他的技術了,我們需要把從傳統資料儲存介質中遷移到生態框架中,這就需要我們學習Hadoop。當然,我們還需要學習SQL相關的知識需要補充,以及linux操作,還需要對java需要簡單的掌握。還有,加入我們的資料是記錄在服務日誌中,那麼,我們需要對linux很熟悉,各種指令碼的使用,日誌檔案的各種操作。如果體量大,我們還需要把這些日誌檔案丟到分散式框架中進行處理、清洗。對於這種資料的處理,我們需要掌握的一方面是linux的熟悉操作、另一方面是一些諸如離線資料處理框架的使用,語言方面還是以java、指令碼類語言為主。只有學到了這些,我們才能夠做好對服務日誌的資料收集。

如果是資料上報的形式,這就需要我們需要對整個資料上報的流程熟悉,怎麼進行埋點、怎麼收集上報的資料,上報過來怎麼進行傳輸接受落地,這裡就不多說,最終這種上報過來的資料就會相當整齊。我們在這篇文章中給大家介紹了資料的收集的相關知識了,在資料收集方面需要學的知識還是有很多的,所以希望大家能夠根據自己的需求定製學習計劃,希望這篇文章能夠給大家帶來幫助。