入門-大資料概論及Hadoop介紹

阿新 • • 發佈：2019-01-12

1、大資料概論

大資料（big data）：指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

主要解決，海量資料的儲存和海量資料的分析計算問題。

按順序給出資料儲存單位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T

大資料的特點：Volume （大量）、Velocity （高速）、Variety （多樣）、Value （低價值密度）

企業(大中型企業)資料部的一般組織結構：

2、Hadoop介紹：

2.1、Hadoop是什麼

1）Hadoop 是一個由 Apache 基金會所開發的分散式系統基礎架構。

2）主要解決，海量資料的儲存和海量資料的分析計算問題。

3）廣義上來說，HADOOP 通常是指一個更廣泛的概念——HADOOP 生態圈。

2.2、Hadoop三大發行版本

Apache 版本最原始（最基礎）的版本，對於入門學習最好。

Cloudera 在大型網際網路企業中用的較多。

Hortonworks 文件較好。

2.3、Hadoop優勢

高可靠性：因為 Hadoop 假設計算元素和儲存會出現故障，因為它維護多個工作資料副本，在出現故障時可以對失敗的節點重新分佈處理。

高擴充套件性：在叢集間分配任務資料，可方便的擴充套件數以千計的節點。

高效性：在 MapReduce 的思想下，Hadoop 是並行工作的，以加快任務處理速度。

高容錯性：自動儲存多份副本資料，並且能夠自動將失敗的任務重新分配。

2.4、Hadoop組成

1）Hadoop HDFS：一個高可靠、高吞吐量的分散式檔案系統。

2）Hadoop MapReduce：一個分散式的離線平行計算框架。

3）Hadoop YARN：作業排程與叢集資源管理的框架。

4）Hadoop Common：支援其他模組的工具模組（Configuration、RPC、序列化機制、日誌操作）。

2.5、大資料技術生態體系

1）Sqoop：sqoop 是一款開源的工具，主要用於在 Hadoop(Hive)與傳統的資料庫(mysql)間進行資料的傳遞，可以將一個關係型資料庫（例如： MySQL ,Oracle 等）中的資料導進到 Hadoop 的 HDFS 中，也可以將 HDFS 的資料導進到關係型資料庫中。

2）Flume：Flume 是 Cloudera 提供的一個高可用的，高可靠的，分散式的海量日誌採集、聚合和傳輸的系統，Flume 支援在日誌系統中定製各類資料傳送方，用於收集資料；同時，Flume 提供對資料進行簡單處理，並寫到各種資料接受方（可定製）的能力。

3）Kafka：Kafka 是一種高吞吐量的分散式釋出訂閱訊息系統，有如下特性：（1）通過 O(1)的磁碟資料結構提供訊息的持久化，這種結構對於即使數以 TB 的訊息儲存也能夠保持長時間的穩定效能。（2）高吞吐量：即使是非常普通的硬體 Kafka 也可以支援每秒數百萬的訊息（3）支援通過 Kafka 伺服器和消費機叢集來分割槽訊息。（4）支援 Hadoop 並行資料載入。

4）Storm：Storm 為分散式實時計算提供了一組通用原語，可被用於“流處理”之中，實時處理訊息並更新資料庫。這是管理佇列及工作者叢集的另一種方式。 Storm 也可被用於“連續計算”（continuous computation），對資料流做連續查詢，在計算時就將結果以流的形式輸出給使用者。

5）Spark：Spark 是當前最流行的開源大資料記憶體計算框架。可以基於 Hadoop 上儲存的大資料進行計算。

6）Oozie：Oozie 是一個管理 Hdoop 作業（job）的工作流程排程管理系統。Oozie 協調作業就是通過時間（頻率）和有效資料觸發當前的 Oozie 工作流程。

7）Hbase：HBase 是一個分散式的、面向列的開源資料庫。HBase 不同於一般的關係資料庫，它是一個適合於非結構化資料儲存的資料庫。

8）Hive：hive 是基於 Hadoop 的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的 sql 查詢功能，可以將 sql 語句轉換為 MapReduce 任務進行執行。其優點是學習成本低，可以通過類 SQL 語句快速實現簡單的 MapReduce 統計，不必開發專門的 MapReduce 應用，十分適合資料倉庫的統計分析。

9）R 語言：R 是用於統計分析、繪圖的語言和操作環境。R 是屬於 GNU 系統的一個自由、免費、原始碼開放的軟體，它是一個用於統計計算和統計製圖的優秀工具。

10）Mahout: Apache Mahout 是個可擴充套件的機器學習和資料探勘庫，當前 Mahout 支援主要的 4 個用例：推薦挖掘：蒐集使用者動作並以此給使用者推薦可能喜歡的事物。聚集：收集檔案並進行相關檔案分組。分類：從現有的分類文件中學習，尋找文件中的相似特徵，併為無標籤的文件進行正確的歸類。頻繁項集挖掘：將一組項分組，並識別哪些個別項會經常一起出現。

11）ZooKeeper：Zookeeper 是 Google 的 Chubby 一個開源的實現。它是一個針對大型分佈式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分散式同步、組服務等。 ZooKeeper 的目標就是封裝好複雜易出錯的關鍵服務，將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

入門-大資料概論及Hadoop介紹

入門-大資料概論及Hadoop介紹

10小時入門大資料（二）------初識Hadoop

大資料學習之Hadoop快速入門

新手入門大資料 Hadoop基礎與電商行為日誌分析

大資料概念和Hadoop基本介紹

從五篇paper入門大資料與Hadoop（二）：GFS

如何快速入門大資料學習，有哪些入門技巧

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（1）

入門大資料行業！必備的十大基礎

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（2）

【大資料】瞭解Hadoop框架的基礎知識

學習大資料開發需要讀的書籍有哪些？大資料開發書籍推薦介紹

快速入門大資料

大資料開發之Hadoop篇----pid檔案剖析

大資料開發之Hadoop篇----hdfs讀寫許可權操作

大資料開發之Hadoop篇----mapreduce概念以及架構

大資料開發之Hadoop篇----hdfs垃圾回收機制配置

大資料開發之Hadoop篇----提交作業到yarn上的流程

大資料開發之Hadoop篇----hdfs讀流程

大資料開發之Hadoop篇----hdfs dfsadmin命令

入門-大資料概論及Hadoop介紹

相關推薦