Spark讀取HDFS檔案，任務本地化(NODE_LOCAL)

阿新 • • 發佈：2019-02-04

Spark也有資料本地化的概念（Data Locality），這和MapReduce的Local Task差不多，如果讀取HDFS檔案，Spark則會根據資料的儲存位置，分配離資料儲存最近的Executor去執行任務。

這麼理解沒錯，我搭建的Spark叢集情況是這樣：

15臺DataNode節點的HDFS叢集，我在每個DataNode上都部署了一個Spark Worker，並且，啟動Spark Application的時候，每個Worker都有一個Executor，這樣理論上來說，只要讀取HDFS檔案，Spark都可以使用本地任務來讀取(NODE_LOCAL)。

在$SPARK_HOME/conf/slaves檔案中配置了每個Worker的hostname,之後在Master上，執行$SPARK_HOME/sbin/start-slaves.sh來啟動Workers，啟動之後叢集如圖顯示：

Spark WebUI

進入spark-sql,從hive中掃描一張表，執行情況如下：

Spark WebUI

奇怪的是，所有讀取HDFS檔案的Task Locality Level全部是ANY，也就是說，沒有一個使用NODE_LOCAL本地化任務，這樣導致叢集的網路消耗非常大（因為所有的資料都要經網路拷貝一遍），如圖，後面那個峰值是執行任務的網路情況：

Spark NetWork

直接說原因和解決辦法吧。

請注意最上面叢集情況的圖中，Worker Id和Address中都使用的IP地址作為Worker的標識，而HDFS叢集中一般都以hostname作為slave的標識，這樣，Spark從HDFS中獲取檔案的儲存位置對應的是hostname，而Spark自己的Worker標識為IP地址，兩者不同，因此沒有將任務的Locality Level標記為NODE_LOCAL,而是ANY。奇怪的是，我在Spark的slaves檔案中都配置的是hostname,為何叢集啟動後都採用了IP地址？最大的可能是/etc/hosts檔案的配置。

大資料學習交流群:724693112 歡迎想學習大資料和需要大資料學習資料的同學來一起學習。

解決辦法是：沒有采用slaves檔案+start-slaves.sh的方式啟動，而是每臺Worker單獨啟動，

使用命令：$SPARK_HOME/sbin/start-slave.sh -h <hostname> <masterURI>，這樣啟動之後，Spark WEBUI中Worker Id和Address中都以hostname來顯示了，如圖：

Spark WebUI

再次進入spark-sql，執行同樣的任務，所有的Task Locality Level都是NODE_LOCAL，沒有網路傳輸，速度比之前快了好幾倍。

Spark WebUI

這才是期望的結果，至於導致salves檔案中配置的明明是hostname,為何Spark叢集中解析成IP地址的原因，後續再查吧。

Spark讀取HDFS檔案，任務本地化(NODE_LOCAL)

Spark讀取HDFS檔案，任務本地化(NODE_LOCAL)

IDEA編寫wordcount，讀取hdfs檔案，執行在Spark叢集例子

spark讀取日誌檔案，把RDD轉化成DataFrame

Spark 讀取HDFS檔案

Spark HadoopRDD讀取HDFS檔案

hdfs檔案，從隨機地方開始讀，讀取任意長度

Spark讀取HDFS或者AFS等檔案系統檔案

解決Spark讀取HDFS小檔案的問題

IO流讀取資料檔案，將資料寫入資料庫，並記錄資料匯入日誌

java selenium 讀取配置檔案，報錯中文亂碼

spark1.6.1讀取csv檔案，轉為為DataFrame和使用SQL

讀取txt檔案，生成csv檔案

java Api 讀取HDFS檔案內容

java爬蟲之入門基礎 java讀取txt檔案，對字串進行操作後匯出txt檔案

讀取bin檔案，並且按結構體賦值列印

讀取csv檔案，1min k線輸出到csv檔案中，計算5s，10s，20s移動平均值

使用java實現讀取txt檔案，匯入到MongoDB中

Visual Studio使用ffmpeg 4.0 讀取視訊檔案，寫入到bmp圖片。

spark 讀取orc檔案

python無法讀取hdfs檔案的問題:requests.exceptions.ConnectionError: HTTPConnectionPool

Spark讀取HDFS檔案，任務本地化(NODE_LOCAL)

相關推薦