1. 程式人生 > >大資料處理基本過程,一個月就可以掌握的大資料技術

大資料處理基本過程,一個月就可以掌握的大資料技術

剛接觸大資料一個月,把一些基本知識,總體架構記錄一下,感覺坑很多,要學習的東西也很多,先簡單瞭解一下基本知識
什麼是大資料:大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
大資料的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性),百度隨便找找都有。
大資料處理基本過程
大資料處理流程:
在這裡插入圖片描述
大資料處理基本過程
1.是資料採集,搭建資料倉庫,資料採集就是把資料通過前端埋點,介面日誌呼叫流資料,資料庫抓取,客戶自己上傳資料,把這些資訊基礎資料把各種維度儲存起來,感覺有些資料沒用(剛開始做只想著功能,有些資料沒采集, 後來被老大訓了一頓)。
2.資料清洗/預處理:就是把收到資料簡單處理,比如把ip轉換成地址,過濾掉髒資料等。
3.有了資料之後就可以對資料進行加工處理,資料處理的方式很多,總體分為離線處理,實時處理,離線處理就是每天定時處理,常用的有阿里的maxComputer,hive,MapReduce,離線處理主要用storm,spark,hadoop,通過一些資料處理框架,可以吧資料計算成各種KPI,在這裡需要注意一下,不要只想著功能,主要是把各種資料維度建起來,基本資料做全,還要可複用,後期就可以把各種kpi隨意組合展示出來。
4.資料展現,資料做出來沒用,要視覺化,做到MVP,就是快速做出來一個效果,不合適及時調整,這點有點類似於Scrum敏捷開發,資料展示的可以用datav,神策等,前端好的可以忽略,自己來畫頁面。
資料採集:
1.批資料採集,就是每天定時去資料庫抓取資料快照,我們用的maxComputer,可以根據需求,設定每天去資料庫備份一次快照,如何備份,如何設定資料來源,如何設定出錯,在maxComputer都有文件介紹,使用maxComputer需要註冊阿里雲服務,

https://help.aliyun.com/product/27797.html,連結是maxComputer文件。
2.實時介面呼叫資料採集,可以用logHub,dataHub,流資料處理技術,DataHub具有高可用,低延遲,高可擴充套件,高吞吐的特點。
高吞吐:最高支援單主題(Topic)每日T級別的資料量寫入,每個分片(Shard)支援最高每日8000萬Record級別的寫入量。
實時性:通過DataHub ,您可以實時的收集各種方式生成的資料並進行實時的處理,
設計思路:首先寫一個sdk把公司所有後臺服務呼叫介面呼叫情況記錄下來,開闢執行緒池,把記錄下來的資料不停的往dataHub,logHub儲存,前提是設定好接收資料的dataHub表結構,
https://help.aliyun.com/document_detail/47448.html?spm=a2c4g.11186623.3.2.nuizA4,這是dataHub文件,下圖是資料監控,會看到資料會不停流入

在這裡插入圖片描述
大資料處理基本過程
3.前臺資料埋點,這些就要根據業務需求來設定了,也是通過流資料傳輸到資料倉庫,如上述第二步。
資料處理:
資料採集完成就可以對資料進行加工處理,可分為離線批處理,實時處理。
1.離線批處理maxComputer,這是阿里提供的一項大資料處理服務,是一種快速,完全託管的TB/PB級資料倉庫解決方案,編寫資料處理指令碼,設定任務執行時間,任務執行條件,就可以按照你的要求,每天產生你需要的資料,
https://help.aliyun.com/document_detail/30267.html?spm=a2c4g.11174283.3.2.0aBtdh,連結dataworks為文件。下圖是檢測任務例項執行狀態

在這裡插入圖片描述
大資料處理基本過程
2.實時處理:採用storm/spark,目前接觸的只有storm,strom基本概念網上一大把,在這裡講一下大概處理過程,首先設定要讀取得資料來源,只要啟動storm就會不停息的讀取資料來源。Spout,用來讀取資料。Tuple:一次訊息傳遞的基本單元,理解為一組訊息就是一個Tuple。stream,用來傳輸流,Tuple的集合。Bolt:接受資料然後執行處理的元件,使用者可以在其中執行自己想要的操作。可以在裡邊寫業務邏輯,storm不會儲存結果,需要自己寫程式碼儲存,把這些合併起來就是一個拓撲,總體來說就是把拓撲提交到伺服器啟動後,他會不停讀取資料來源,然後通過stream把資料流動,通過自己寫的Bolt程式碼進行資料處理,然後儲存到任意地方,關於如何安裝部署storm,如何設定資料來源,網上都有教程,這裡不多說。
在這裡插入圖片描述
大資料處理基本過程
資料展現:做了上述那麼多,終於可以直觀的展示了,由於前端技術不行,借用了第三方展示平臺datav,datav支援兩種資料讀取模式,第一種,直接讀取資料庫,把你計算好的資料,通過sql查出來,需要配置資料來源,讀取資料之後按照給定的格式,進行格式化就可以展現出來,https://help.aliyun.com/document_detail/30360.html,連結為datav文件。可以設定圖示的樣式,也可以設定引數,
在這裡插入圖片描述
大資料處理基本過程
第二種採用介面的形式,可以直接採用api,在資料區域配置為api,填寫介面地址,需要的引數即可,這裡就不多說了。
這次先記錄這麼多,以後再補充,內容為原創,若是有不對的地方還請評論糾正
下面小編給大家介紹一下程式設計師的興趣學習圈,跟大咖零距離交流,更多學習教程群裡與您分享!
大資料學習qq群458345782
python學習qq群250933691
java學習qq群625241190