1. 程式人生 > >配置微軟Azure大資料HDInsight雲集群

配置微軟Azure大資料HDInsight雲集群

配置微軟Azure大資料HDInsight雲集群,儲存賬戶、託管標識等問題也都參考官方文件解決了。
原文在我的開源中國部落格 https://my.oschina.net/finchxu/blog/3164887

微軟Azure為國外學生提供了100美元額度的免費一年的賬戶,為國內個人使用者提供了1500人民幣額度的“免費”一個月賬戶(花費1元即可獲得)。

一元體驗賬戶申請連結:https://www.azure.cn/pricing/1rmb-trial-full/?form-type=identityauth

這個賬戶能使用完整的微軟Azure中國區域資源,包括虛擬機器、儲存、資料分析等。這裡直接配置 HDInsight 大資料分析平臺。

1. 首先依次找到“建立資源”=>“資料+分析”=>“ HDInsight ”點選進入配置目錄。

這裡開始第一步,

(1)填寫cluster name以方便後來通過web訪問你的所有資源。

(2)cluster typer選Hadoop2.7就行。

(3)login name 和密碼呢,寫好記住就行,也是後邊通過web訪問的時候要用的。

(4)Resource group你自己新建一個起個名字即可。

(5)地區的話,選擇離你近的,中部或者東部都可以。這裡要注意,後邊別的設定也要選擇同樣的地區才行。

2. 點選next後進入第二步。配置儲存。

我們在建立Azure賬戶的時候就預設建立了管理員賬戶,這裡還要建立獨立的儲存賬戶

(1)首先在左側邊欄找到“儲存賬戶”,右鍵在新的標籤頁開啟(意思就是不要關閉現有頁面)。

這裡的資源組填選擇和上邊第一步中的resource group一樣的就行,後邊的所有資源也是都選這一個資源組就好了。

點選下一步後,“網路”預設,“高階”中啟用“ 層次結構名稱空間 ”,後邊的就都是預設就行了。最後點選“建立”稍等就完成了。

賬戶建立完畢了,儲存器其實還不能使用,我們需要建立“託管標識”來管理許可權問題。

在最上邊搜尋條中,搜尋“託管標識”,如下圖所示

點選開啟後,選擇 新增 即可,這個建立很簡單。注意資源組一直都是選同一個,不要新建。

這時候呢,我們把新建的 託管標識 附加到剛才建立的 儲存賬戶 上就完成了。

(1.a)回到 儲存賬戶 頁面,點選資源進入詳頁

(1.b)在左側邊欄找到 “訪問控制(標識和訪問管理)”

(1.c)點選“新增”=>“新增角色分配”

(1.d)按照下圖所示,“角色” 選擇 “儲存Blob資料所有者”,訪問許可權 選擇 “使用者分配的託管標識”,下邊自動列出了剛才建立的“託管標識”。這時候選擇,並點選儲存即可。

(2)這時候回到最開始的頁面,也就是 HDInsight 配置頁面,我們接著配置第二步。

(2.a)“Primary storage type” 選擇 “Azure Date Lake Storage Gen2”

(2.b)下邊“select a storage account” 點選選擇剛才建立的儲存賬戶即可。

(2.c)這裡的Identity就是我們上邊建立的 “託管標識”,在“User-assigned managed identity”中選擇之前建立好的託管標識就好啦。

    到這裡就可以點選next進行下一步了,不過這裡的metastore元資料儲存可以自定義,這樣你的叢集被刪除的時候,hive元資料都完好無損。

3. 這裡來到了最後一步。

這裡你會發現為什麼費用這麼高?別急,我們點選 “Cluster size” 就可以選擇節點機器的配置來節省。

在右邊視窗點選 瀏覽全部配置 就可以找到低價的。還有可以設定 “Worker nodes” 的數量,hdfs嘛,最低也要來兩臺吧,這樣hdfs也有100G了。

4. 這時候把剩餘的“下一步”點完,就等待他自動建立叢集吧,20mins左右完成,回到儀表板就能找到建立好的資源。點選右邊的url就能看到所有資源的控制面板了。大功告成。點選url後會提示輸入使用者名稱和密碼,,這倆就是上邊第一步填寫的 “cluster login username&password” 還有ssh登入也是上邊寫好的。

微軟大法好!!!微軟的文件都寫得特別詳細完整。這一點微軟從來都做的特別厲害!!!

參考文件:

https://docs.microsoft.com/zh-cn/azure/hdinsight/hdinsight-hadoop-provision-linux-clusters

https://docs.microsoft.com/zh-cn/azure/hdinsight/hdinsight-hadoop-use-data-lake-storage-g