hadoop叢集的搭建指令碼及構思（一）：使用者和使用者許可權

阿新 • • 發佈：2019-01-14

打算搞一個複雜的Hadoop 2.6叢集，加上Zookeeper來搞HA，再部署上HBase，Hive等一系列的東西。發現機器多了，從建虛機到配置都不能再靠命令列一條一條的敲，需要搞指令碼出來自動/半自動執行。

其實想想，這個部署的過程就是一個類似PaaS的任務。完全可以搞成視覺化的部署工具。當年搞十八摸的中介軟體的部署就是有這樣的工具。可以自己先定義所需要的系統拓撲，比如一個WAS ND的叢集，要幾個Deploy Manager，幾個WAS App Server，後面跟著幾個DB2的資料庫例項。然後一個命令就全部虛機都部署出來了，相互間的連線配置也搞好了。管理的時候，就直接上WAS ND的頁面管理。

現在的Hadoop之類的叢集，動不動就是成百上千臺機器，靠指令碼的執行來管理，不是什麼好方法。攜程出現的問題就是個好的例子。相信BAT這樣的巨頭一定會有自己的PaaS部署和管理的系統。

自己搞的小叢集就還是用指令碼來吧。哪天系統出問題了，就直接虛機刪除，然後再部署一套，來的方便快捷。

使用者和使用者許可權的思考

首先看到很多網上的科普hadoop，zookeeper，HBase的安裝配置的文章都用root來搞。科普簡介還行，但是正常的開發、測試環境這就不行了，就更別說生產環境了。root什麼都管了，危險太大。

還沒搞完，不過覺得資料分析和管理應該分開，開發和測試環境可以都用一個帳號，比如我常用的hadoop帳號。基本思路是：

1. root使用者是在虛機建立後才用的，可以寫指令碼來幹幾件事

- 建立大資料工具的各個帳號，建立/修改密碼；
- 安裝Java或者其他語言，這個是給所有使用者使用的，應該是要root來安裝；
- 保持各個工具需要的軟體包，賦予不同使用者對各自軟體包的許可權；
- 針對不同的使用者，建立基礎目錄和臨時目錄，根據使用者的需求賦予不同的許可權

2. 管理相關的帳號，這裡主要是指zookeeper帳號。 3. DFS/Hadoop/相關的帳號。 4. 資料應用的帳號，比如HBase、Hive、Spark等的帳號 2-4，在開發和測試環境可以用一個帳號全部管理，省去很多麻煩。比如hadoop要求的master到slave和slave之間需要能無密碼的ssh登陸，設定N×N之間能無密碼ssh登陸是很煩的事，一旦新增節點，將要求大家都來一遍，多帳號就會很麻煩。

終於又有時間來繼續這個專案。今天碰到的一個問題是到底hadoop 2.6裡面SSH的作用是什麼，到底需要配置誰和誰之間無需密碼的SSH登入。

《Hadoop權威指南》v3版裡面說的是隻需要Master到Slave單向需要配置SSH無密碼登入，以方便控制指令碼來啟動全叢集的操作。還特別強調不是java的程序需要SSH。但並沒有細化到到底node級別。對於一個NameNode，Resource Manager都分離的環境，這個問題就比較的複雜了，需要考慮下面的幾種情況：

NameNode 和 Data Nodes間的配置；
Resource Manager -> Node Managers的配置
主NameNode和從NameNode間的配置；
主ResMgr和從ResMgr間的配額制；
DataNode間的配置；
NodeMgr間的配置；

以上這些都涉及到雙向的問題。又google了一圈，看到講解清楚的還真的很少。有一個StackOver上面說道了這樣的觀點：

和《指南》的說法一樣，Master們一定要能SSH到Slaves上去，才好啟動。所以NameNode>DataNodes和ResMgr>NodeMgr是一定要配置的，單向！
Slaves直接的通訊是通過TCP/IP加上RCP協議來實現的，所以不用SSH。

但是，在我的3節點環境中，曾經發生過slave之間必須要能SSH才能跑通程式的情況，所以上述說法還有待驗證。

由於沒找到標準的原理解釋部分，我暫且認為StackOver上的關於Master到Slave的觀點正確。由於主從節點之間也沒有找到原理文章，我現階段決定先按StackOver的說法配置我的7節點環境：

賬號都採用hadoop；

只配置NameNode>DataNodes和ResMgr>NodeMgr的SSH無密碼登入；

其他情況現在都不配置。在實際安裝配置中來發現問題，再改進。

（關於這個話題就談到這裡，以後就實際出席的問題再修改此帖裡的SSH原理部分。關於我的7節點的hadoop ha環境，另開新帖討論）

hadoop叢集的搭建指令碼及構思（一）：使用者和使用者許可權

hadoop叢集的搭建指令碼及構思（一）：使用者和使用者許可權

hadoop叢集的搭建指令碼及構思（二）：程式檔案的管理思路

Hadoop 叢集遷移歷程心得體會（一）

Java中String、StringBuilder、StringBuffer常用源碼分析及比較（一）：String源碼分析

windows環境下搭建Java開發環境（一）：jdk安裝和配置

SmartGit 安裝及使用（一）：安裝及配置

淺析RxJava 1.x&2.x版本使用區別及原理（一）：Observable、Flowable等基本元素原始碼解析

寫給前端同學的C++入門教程（一）：概述和環境搭建

JAVA並行框架Fork/Join（一）：簡介和代碼示例

ES6（一）：let和const

再談資料結構（一）：棧和佇列

pyspider 爬蟲教程（一）：HTML 和 CSS 選擇器

ELF檔案解析（一）：Segment和Section

ClearCase完全攻略（一）：Base和UCM的前生後世

Linux下nodejs（一）：安裝和使用

Effective Java 讀書筆記（一）：建立和銷燬物件

Java多執行緒和記憶體模型（一）：程序和執行緒基礎

React Native for Android 實戰（一）：配置和起步

TensorFlow 從入門到精通（一）：安裝和使用

大資料生態系統基礎：Apache Kafka基礎（一）：介紹和安裝

hadoop叢集的搭建指令碼及構思（一）：使用者和使用者許可權

相關推薦