1. 程式人生 > >hadoop Unhealthy Nodes問題解決

hadoop Unhealthy Nodes問題解決

1、問題來源

前幾天因為一個hive SQL的問題,導致其中一臺機器的磁碟空間不足,刪除臨時檔案解決了空間不足的問題;

檢視http://hadoop/cluster/nodes/unhealthy 發現出現了一個unhealty節點,錯誤資訊如下

1/1 local-dirs turned bad: /usr/local/goldmine/hadoop/tmp/nm-local-dir;
1/1 log-dirs turned bad: /usr/local/goldmine/hadoop/hadoop-2.4.0/logs/userlogs

雖然空間問題解決了,但是unhealthy節點確沒有恢復;

2、原因查詢

NodeManager預設會每兩分鐘檢查本地磁碟(local-dirs),找出那些目錄可以使用。注意如果判定這個磁碟不可用,則在重啟NodeManager之前,就算磁碟好了,也不會把它變成可用。程式碼在LocalDirsHandlerService,DirectoryCollection。

當好磁碟數少於一定量時,會把這臺機器變成unhealthy,將不會再給這臺機器分配任務。

3、解決方案-重啟相關服務

3.1 重啟nodemanager: 

     /usr/local/goldmine/hadoop/default/sbin/yarn-daemon.sh stop nodemanager
     /usr/local/goldmine/hadoop/default/sbin/yarn-daemon.sh start nodemanager
3.2 重啟resourcemanager,(否則會導致修改的節點狀態錯亂) 
    /usr/local/goldmine/hadoop/default/sbin/yarn-daemon.sh stop resourcemanager
    /usr/local/goldmine/hadoop/default/sbin/yarn-daemon.sh start resourcemanager
3.3 重新整理http://hadoop/cluster/nodes/unhealthy頁面: 
可以看到不健康的nodemanager已經消失在列表了。
3.4 命令顯示yarn各節點狀態: 
    yarn node -list -all



參考:

相關推薦

hadoop Unhealthy Nodes問題解決

1、問題來源 前幾天因為一個hive SQL的問題,導致其中一臺機器的磁碟空間不足,刪除臨時檔案解決了空間不足的問題; 檢視http://hadoop/cluster/nodes/unhealthy 發現出現了一個unhealty節點,錯誤資訊如下 1/1 local-d

Hadoop 跑MapReduce Job 的時候卡主,unhealthy-nodes=1

出現跑 MR job的時候卡主,根被就沒有執行map 和reduce,修改yarn-site.xml的記憶體也不管用,檢視8088介面,發現yarn的Memory Total =0B,Active Nodes =0,而Unhealthy Nodes =1,字面意

hdfs遠端連線hadoop問題與解決

問題:使用hdfs客戶端在本地連線阿里雲伺服器上部署的hadoop,操作hdfs時候出現異常:could only be replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running

org.apache.hadoop.mapred.FileAlreadyExistsException 解決方案

Exception in thread “main” org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory temp/preparePreferenceMatrix/itemIDIndex

datanode Unhealthy Nodes

簡介:今天單機啟動hadoop發現,datanode存在,但是頁面上卻顯示Unhealthy Nodes 1.現象 2.原因 當磁碟數少於一定量時,會把這臺機器變成unhealthy,將不會再給這臺機器分配任務。

Hadoop技術創新解決方案

如今有很多公司都在努力挖掘他們擁有的大量資料,包括結構化、非結構化、半結構化以及二進位制資料等,來探索對資料的深入利用。 大多數公司估計他們只分析了已有資料的12%,剩餘88%還沒有被充分利用。大量的資料孤島和分析能力的缺乏是造成這種局面的主要原因。另外一個難題是如何判斷資料是否有價值。尤其

Hadoop 一些錯誤解決

1. Input path does not exist:file:/路徑名      這個問題肯定是core-site.xl 配置檔案中fs.defaultFS配置項配置不正確。如果是本機執行hadoop,那麼需要修改配置檔案中此配置項為hdfs://IP:Por

報錯Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-root"解決辦法

報錯Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-root"解決辦法 hadoop fs -chown -R root:root /tmp 授予root操作hadoop分散式檔案系統的目錄/tmp

hadoop叢集中解決檢視任務的history報錯問題

    開啟叢集,執行MR任務,在8088埠檢視任務資訊的時候:     出現如下錯誤:     解決方法:     首先將/tmp的許可權修改為777,看是否可以解決問題。如果不行,再檢查叢集

Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\hadoop-env.cmd解決方法

啥都不說!直接上乾貨!   開啟對應路徑下的hadoop-env.cmd   將 set JAVA_HOME=%JAVA_HOME% 更換為絕對路徑↓ set JAVA_HOME="E:\Development Software\Java\jdk1.8.0_72" 即可

學習hadoop還沒解決的問題

1.配置為分佈模式,start-all.sh,後>hdfs dfs -ls /或>hdfs dfs -mkdir -p /home/centos/hadoop命令無效,命令能執行通過,但是沒有輸出結果,不能顯示根目錄資訊或建立資料夾過了一會,再重複上面命令>

兩個hadoop的問題解決

org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 出現這個問題多是由於namenode和datanode的資料不一致的問題。最近做了幾個叢集,嘗試了幾種可能出現此問題的情況,大概是因為格式化

hadoop 搭建3節點叢集,遇到Live Nodes顯示為0時解決辦法

首先,尼瑪哥在搭建hadoop 的3節點叢集時,安裝基本的步驟,配置好以下幾個檔案 core-site.xml hadoop-env.sh hdfs-site.xml yarn-env.sh yarn-site.xml slaves 之後就是格式化Nam

重新格式化hadoop的namenode導致datanode無法啟動的最簡單解決辦法

導致 roo 報錯信息 不一致 atan 格式化 exceptio nco ava 一般namenode只格式化一次,重新格式化不僅會導致之前的數據都不可用,而且datanode也會無法啟動。在datanode日誌中會有類似如下的報錯信息: java.io.IOExcep

解決kylin報錯 ClassCastException org.apache.hadoop.hive.ql.exec.ConditionalTask cannot be cast to org.apache.hadoop.hive.ql.exec.mr.MapRedTask

conf lan exe hive oop ann 關於 .exe map 方法:去掉參數SET hive.auto.convert.join=true; 從配置文件$KYLIN_HOME/conf/kylin_hive_conf.xml刪掉 或 kylin-gui的cu

hadoop解決windows下:Failed to set permissions of path: mp .staging to 0700

1.0 style ati 配置文件 github unable ica perm lac 17/04/24 15:32:44 WARN util.NativeCodeLoader: Unable to load native-Hadoop library for your

hadoop中unhealthynodes的問題解決

指定 oop 問題 yar eal 最大 utili 百分比 val 在yarn-site.xml中加入如下配置 <property> <name>yarn.nodemanager.disk-health-checker.min-hea

Hadoop namenode無法啟動問題解決

hdfs atan system.in trac perm ces log and hadoop 原文:http://www.cnblogs.com/unflynaomi/p/4476870.html 原因:在root賬戶(非hadoop賬戶)下操作hadoop會導致很大的

Hadoop HDFS: the directory item limit is exceed: limit=1048576問題的解決

hadoop hdfs 問題描述:1.文件無法寫入hadoop hdfs文件系統;2.hadoop namenode日誌記錄 the directory item limit is exceed: limit=10485763.hadoop單個目錄下文件超1048576個,默認limit限制數為104

Hadoop datanode正常啟動,但是Live nodes中卻突然缺少節點

tar ade clas pos body bce href 12g class 熱h9燦秤擅樸r5廈氯仿素慚馱什澆俾腿諶nr哉認贍http://blog.sina.com.cn/s/blog_172d23f1e0102wy3m.html亮ci冒缸習劣qy攣頹凹煌用仝較露導