1. 程式人生 > >大資料技術原理與應用 第二章 大資料處理架構Hadoop 學習指南

大資料技術原理與應用 第二章 大資料處理架構Hadoop 學習指南

本指南介紹Linux的選擇方案,並詳細指引讀者根據自己選擇的Linux系統安裝Hadoop。請務必仔細閱讀完廈門大學林子雨編著的《大資料技術原理與應用》第2章節,再結合本指南進行學習。

Hadoop是基於Java語言開發的,具有很好跨平臺的特性。Hadoop的所要求系統環境適用於Windows,Linux,Mac系統,我們推薦選擇使用Linux或Mac系統。Mac系統存在於蘋果電腦上,由於Mac系統對硬體有定製化要求,沒法在Windows上使用虛擬機器和雙系統來使用Mac系統,我們下面也會給出Mac系統安裝Hadoop的相關教程。而Linux系統則可以在Windows上使用虛擬機器或雙系統安裝使用。如果選擇Linux,我們需要首先安裝好Linux系統,然後在Linux系統的基礎上,安裝Hadoop。
本章需要用到的所有軟體,可以到這些軟體的官網下載,也可以直接

點選這裡從百度雲盤下載各個軟體

一、Linux的選擇

在Linux系統各個發行版中,CentOS系統和Ubuntu系統在服務端和桌面端使用佔比最高,網路上資料最是齊全,所以我們建議使用CentOS 6.4系統或Ubuntu LTS 14.04。

選擇Ubuntu還是CentOS

一般來說,如果要做伺服器,我們選擇CentOS或者Ubuntu Server;如果做桌面系統,我們選擇Ubuntu Desktop。但是在學習Hadoop方面,雖然兩個系統沒有多大區別,但是我們強烈推薦新手讀者使用Ubuntu作業系統。下面我們也會分別給出在CentOS和Ubuntu系統下安裝Hadoop的教程。

下面我們給出兩個系統的下載地址。

(一)下載地址

整體的系統安裝檔案較大(>1G),我們推薦使用支援斷點下載的工具,比如迅雷,或者QQ旋風。點選下載工具連結,選擇自己喜歡的下載工具

安裝完上面的下載工具後,記得關閉瀏覽器,再重新開啟瀏覽器訪問本網頁,下載下面的系統安裝檔案。

如果您的電腦比較老或者記憶體小於2G,那麼建議您選擇32位系統版本的Linux。如果記憶體大於4G,那麼建議選擇64位系統版本的Linux

  1. CentOS
    32位CentOs 6.4的下載地址:
    普通下載 | 迅雷下載 | 旋風下載

    64位CentOs 6.4的下載地址:
    普通下載 | 迅雷下載 | 旋風下載

  2. Ubuntu(推薦使用該系統)
    32位Ubuntu LTS 14.04的下載地址:

    點選下載

    64位Ubuntu LTS 14.04的下載地址:點選下載

(二)系統安裝方式

選擇虛擬機器安裝還是雙系統安裝

Linux系統的安裝主要有兩種方式:虛擬機器安裝和雙系統安裝,由於虛擬機器安裝和使用Linux的硬體配置比較高,我們建議電腦比較新或者配置記憶體4G以上的電腦可以選擇虛擬機器安裝,電腦較舊或配置記憶體小於等於4G的電腦強烈建議選擇雙系統安裝,否則,在配置較低的計算機上執行LInux虛擬機器,系統執行速度會非常慢。鑑於目前教師和學生的計算機硬體配置一般不高,建議教師和學生在實踐教學中也採用雙系統安裝。

  1. 雙系統安裝
    請參考安裝指南:
    第一步:制定U盤啟動安裝
    第二步:雙系統安裝

    (三)熟悉 Linux系統的使用方法

    (1)上面完成了Linux系統的安裝以後,如果讀者是初次使用Linux系統,請熟悉一下Linux常用命令,參考連結:Linux系統的常用命令
    (2)如果在上面步驟中,讀者採用了虛擬機器的方式安裝了Linux系統,可以學習一下如何在Windows和Linux之間互相傳輸檔案,參考連結:在Windows系統中利用FTP軟體向Ubuntu系統上傳檔案
    (3)在Linux系統中,經常需要解壓縮檔案,所以,讀者需要學習檔案的解壓方法,參考連結:Linux系統中下載安裝檔案和解壓縮方法
    (4)在Linux系統中,經常需要編輯檔案,所以,讀者需要學習vim編輯器的使用方法,參考連結:Linux系統中vim編輯器的安裝和使用方法

二、Hadoop安裝方式

Hadoop的安裝方式有三種,分別是單機模式,偽分散式模式,分散式模式。

  • 單機模式:單機模式:Hadoop 預設模式為非分散式模式(本地模式),無需進行其他配置即可執行。非分散式即單 Java 程序,方便進行除錯。
  • 偽分散式模式:Hadoop 可以在單節點上以偽分散式的方式執行,Hadoop 程序以分離的 Java 程序來執行,節點既作為 NameNode 也作為 DataNode,同時,讀取的是 HDFS 中的檔案。
  • 分散式模式:使用多個節點構成叢集環境來執行Hadoop。

(一)、單機和偽分散式安裝方式

  1. 如果系統是Linux,請參照下面給出的教程進行安裝:

    需要注意以下幾點:
    系統使用者名稱使用hadoop
    不要修改/etc/hosts 預設的localhost地址,如果已經修改請重新把127.0.0.1對映到localhost

(二)、分散式安裝方式

(2)使用Docker搭建Hadoop分散式叢集,請參考實驗室部落格文章《使用Docker搭建Hadoop分散式叢集》。

到此為止,Hadoop的安裝指南已經結束,如果想學習第3章《Hadoop檔案系統》,請參考第3章的學習指南:
大資料技術原理與應用 第三章 學習指南