1. 程式人生 > >大數據2-Hadoop偽分布式+ZK+HDFS

大數據2-Hadoop偽分布式+ZK+HDFS

ora apr 機器 工具 data 解決 專家 常見 模型

大數據解決四大核心問題:

  1. 數據的存儲(Big Data Storage),海量數據需要處理和分析,但前提是要進行有效的存儲。Hadoop的誕生突破了傳統數據文件系統的單機模式。HDFS使得數據可以跨越不同的機器與設備,並且用一個路徑去管理不同平臺上的數據。

  2. 數據的計算(Data Calculation),在數據有效存儲的基礎上,對數據的統計和分析本質上就是數據的計算。在大數據領域常見的計算工具有MapReduceSpark等。

  3. 數據的查詢(Consensus Data),對大數據進行有效管理的核心指標是數據查詢技術。其中NoSQL (Not Only SQL)應用較為廣泛,能較有效解決數據的隨機查詢,其中就主要包括
    Hbase等。從本質而言,依舊是Hadoop模式下的數據查詢。

  4. 數據的挖掘(Data mining),Hive數據倉庫為數據的挖掘提供了基礎,通過分類、預測、相關性分析來建立模型進行模式識別、機器學習從而構建專家系統。

大數據2-Hadoop偽分布式+ZK+HDFS