分散式系統詳解--框架(Hadoop-單機版搭建)
分散式系統詳解--框架(Hadoop-單機版搭建)
前面講了這麼多的理論知識,也有一些基礎的小知識點,很簡單的概括了一下。從這篇文章開始,就會進入到一個理論實踐相結合中,這篇文章主要是講的Hadoop,講解它的基礎認識、安裝、常用命令、還有就是程式碼實現。讓我們開始跟著小象走一遭~~
一、hadoop是什麼?
Apache Hadoop軟體庫是一個框架,允許使用簡單的程式設計模型跨計算機叢集分散式處理大型資料集。它旨在從單個伺服器擴充套件到數千臺計算機,每臺計算機都提供本地計算和儲存。庫本身不是依靠硬體來提供高可用性,而是設計用於檢測和處理應用程式層的故障,從而在計算機叢集之上提供高可用性服務,每個計算機都可能容易出現故障。
好專業的樣子(點選這個連線,這是 Hadoop的官網)。
二、hadoop安裝教程--單機版
2.1 下載hadoop
登入Apache Hadoop的官網。下載適合的版本,文章下載的是 2.7.5版本。當然現在已經到了3.x版本了~
2.2 解壓hadoop
解壓hadoop到指定目錄,比如說放在 /opt 目錄下面。
2.3 配置hadoop的安裝環境變數
修改系統配置檔案 /etc/profile檔案。 操作命令 :vi /etc/profile 新增上HADOOP_HOME
2.4 修改hadoop的配置檔案
因為hadoop依賴於jdk,所以需要告訴hadoop JDK 的位置
找到hadoop的安裝目錄。 我自己的目錄是 /opt/hadoop-2.7.5/etc/hadoop 找到一個檔案是hadoop-env.sh。
2.5 測試 which hadoop或者 hadoop version
2.6 根據官網給出的測試例項,我們自己做一個簡單單機版的使用測試
進行上面官網的四部操作。不過這裡需要有一些注意 。
第一步中新建了一個資料夾,要記住input資料夾放在了哪一個位置。
第二步就是將在etc/hadoop/下面所有的xml檔案 放在上面建立的input資料夾中。
第三步就是執行 hadoop中的jar包 執行的是input 資料夾,執行完的結果放在了output資料夾下(output資料夾不要提前建立)。
第四步就是檢視output資料夾。(下面用的命令是 more output part-r-00000)
注:後面數字乃是input資料夾下面的8個檔案出現的次數。
三、HDFS--原理
(1)HDFS原理圖
(2)HDFS讀寫流程
使勁看(要仔細)就行了~~
歡迎訂閱公眾號(JAVA和人工智慧)
獲取更過免費書籍資源視訊資料
知識點超級連結: