1. 程式人生 > >多圖技術貼:深入淺出解析大資料平臺架構

多圖技術貼:深入淺出解析大資料平臺架構

化資料也爆發式增長。比如:

1、業務系統現在平均每天儲存20萬張圖片,磁碟空間每天消耗100G;

2、平均每天產生簽約視訊檔案6000個,每個平均250M,磁碟空間每天消耗1T;

……

三國裡的“大資料”

“草船借箭”和大資料有什麼關係呢?對天象的觀察是基於一種對風、雲、溫度、溼度、光照和所處節氣的綜合分析這些資料來源於多元化的“非結構”型別,並且資料量較大,只不過這些資料輸入到的不是電腦,而是人腦並最終通過計算分析得出結論。

草船借箭

Google分散式計算的三駕馬車

  • Google File System用來解決資料儲存的問題,採用N多臺廉價的電腦,使用冗餘(也就是一份檔案儲存多份在不同的電腦之上)的方式,來取得讀寫速度與資料安全並存的結果。
  • Map-Reduce說穿了就是函數語言程式設計,把所有的操作都分成兩類,map與reduce,map用來將資料分成多份,分開處理,reduce將處理後的結果進行歸併,得到最終的結果。
  • BigTable是在分散式系統上儲存結構化資料的一個解決方案,解決了巨大的Table的管理、負載均衡的問題。

Hadoop體系架構

Hadoop

 

Hadoop核心設計

Hadoop

 

HDFS介紹-檔案讀流程

Hadoop

 

Client向NameNode發起檔案讀取的請求。 NameNode返回檔案儲存的DataNode的資訊。 Client讀取檔案資訊。 HDFS介紹-檔案寫流程
HDFS Client向NameNode發起檔案寫入的請求。 NameNode根據檔案大小和檔案塊配置情況,返回給Client它所管理部分DataNode的資訊。 Client將檔案劃分為多個Block,根據DataNode的地址資訊,按順序寫入到每一個DataNode塊中。

MapReduce——對映、化簡程式設計模型

輸入資料->Map分解任務->執行並返回結果->Reduce彙總結果->輸出結果

HDFS

 

Hbase——分散式資料儲存系統

HDFS

 

Client:使用HBase RPC機制與HMaster和HRegionServer進行通訊

Zookeeper:協同服務管理,HMaster通過Zookeepe可以隨時感知各個HRegionServer的健康狀況

HMaster: 管理使用者對錶的增刪改查操作

HRegionServer:HBase中最核心的模組,主要負責響應使用者I/O請求,向HDFS檔案系統中讀寫資料

HRegion:Hbase中分散式儲存的最小單元,可以理解成一個Table

HStore:HBase儲存的核心。由MemStore和StoreFile組成。

HLog:每次使用者操作寫入Memstore的同時,也會寫一份資料到HLog檔案

還有哪些NoSQL產品?

NoSQL

 

為什麼要使用NoSQL?

一個高併發網站的DB進化史

NoSQL

關係模型>聚合資料模型的轉換-基本變換

NoSQL

 

關係模型>聚合資料模型的轉換-內嵌變換

NoSQL

 

關係模型>聚合資料模型的轉換-分割變換

NoSQL

 

關係模型>聚合資料模型的轉換-內聯變換

 

36大資料

Hadoop2.0

MapReduce:
JobTracker:協調作業的執行。
TaskTracker:執行作業劃分後的任務。

Hadoop2.0 大資料的技術領域 Hadoop2.0 騰訊大資料現狀(資料來自2014.4.11 騰訊分享日大會) Hadoop2.0   騰訊大資料 騰訊大資料平臺產品架構 Hadoop2.0 騰訊大資料平臺與業務平臺的關係 Hadoop2.0 公司資料處理平臺的基礎架構 大資料 公司大資料平臺架構圖 大資料 應用一資料分析 大資料 應用二視訊儲存   大資料 應用三離線日誌分析 大資料 應用五線上資料分析 參考資料:京東基於Samza的流式計算實踐 大資料