多圖技術貼:深入淺出解析大資料平臺架構
化資料也爆發式增長。比如:
1、業務系統現在平均每天儲存20萬張圖片,磁碟空間每天消耗100G;
2、平均每天產生簽約視訊檔案6000個,每個平均250M,磁碟空間每天消耗1T;
……
三國裡的“大資料”
“草船借箭”和大資料有什麼關係呢?對天象的觀察是基於一種對風、雲、溫度、溼度、光照和所處節氣的綜合分析這些資料來源於多元化的“非結構”型別,並且資料量較大,只不過這些資料輸入到的不是電腦,而是人腦並最終通過計算分析得出結論。
Google分散式計算的三駕馬車
- Google File System用來解決資料儲存的問題,採用N多臺廉價的電腦,使用冗餘(也就是一份檔案儲存多份在不同的電腦之上)的方式,來取得讀寫速度與資料安全並存的結果。
- Map-Reduce說穿了就是函數語言程式設計,把所有的操作都分成兩類,map與reduce,map用來將資料分成多份,分開處理,reduce將處理後的結果進行歸併,得到最終的結果。
- BigTable是在分散式系統上儲存結構化資料的一個解決方案,解決了巨大的Table的管理、負載均衡的問題。
Hadoop體系架構
Hadoop核心設計
HDFS介紹-檔案讀流程
Client向NameNode發起檔案讀取的請求。 NameNode返回檔案儲存的DataNode的資訊。 Client讀取檔案資訊。 HDFS介紹-檔案寫流程
MapReduce——對映、化簡程式設計模型
輸入資料->Map分解任務->執行並返回結果->Reduce彙總結果->輸出結果
Hbase——分散式資料儲存系統
Client:使用HBase RPC機制與HMaster和HRegionServer進行通訊
Zookeeper:協同服務管理,HMaster通過Zookeepe可以隨時感知各個HRegionServer的健康狀況
HMaster: 管理使用者對錶的增刪改查操作
HRegionServer:HBase中最核心的模組,主要負責響應使用者I/O請求,向HDFS檔案系統中讀寫資料
HRegion:Hbase中分散式儲存的最小單元,可以理解成一個Table
HStore:HBase儲存的核心。由MemStore和StoreFile組成。
HLog:每次使用者操作寫入Memstore的同時,也會寫一份資料到HLog檔案
還有哪些NoSQL產品?
為什麼要使用NoSQL?
一個高併發網站的DB進化史
關係模型>聚合資料模型的轉換-基本變換
關係模型>聚合資料模型的轉換-內嵌變換
關係模型>聚合資料模型的轉換-分割變換
關係模型>聚合資料模型的轉換-內聯變換
Hadoop2.0
MapReduce:
JobTracker:協調作業的執行。
TaskTracker:執行作業劃分後的任務。