1. 程式人生 > >datanode宕機後的初步梳理

datanode宕機後的初步梳理

異常描述:

hadoop跑一段時間以後幾臺datanode無故宕掉,檢視datanode的log無異常丟擲,檢視namenode的log丟擲org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /data/hive/tmp/異常

異常分析:

datanode被kill掉,一般只有兩種可能,datanode節點自身出現問題,程序被強制kill掉;

namenode檢測datanode異常,主動發出kill命令將datanode幹掉

解決思路:

排查datanode機器的硬體、網路等環境,確認是否是第一種情況;

修改namenode檢查心跳的時間間隔,減少因網路問題造成的誤殺,修改namenode容錯的閾值,減少因非致命因素導致的誤殺。

相關推薦

datanode初步梳理

異常描述:hadoop跑一段時間以後幾臺datanode無故宕掉,檢視datanode的log無異常丟擲,檢視namenode的log丟擲org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No leas

一例mysql主從數據庫,從庫無法啟動的解決方案

mysql starting 啟動時報錯信息: Starting MySQL... ERROR! The server quit without updating PID file (/usr/local/mysql/data/qkzhi-appzookeeper-1.novalocal.pid

oracle 文件損壞resetlogs處理

ora-00600 13013數據庫意外宕機,歸檔開了,但是歸檔文件損壞,redo損壞,在強行拉起來之後UNDO報錯,設置_corrupted_rollback_segments 跳過不一致的UNDO,重建UNOD表空間,接著報錯:SMON encountered 100 out of maximum 100

redis主庫重啟,主庫和從庫的資料丟失

redis主庫宕機後重啟,主庫和從庫的資料丟失   解決方法: 假如主庫127.0.0.1 6379,從庫127.0.0.1 6380 1.在從資料庫中執行SLAVEOF NO ONE命令,斷開主從關係並且提升為主庫繼續服務; 2

redis cluster 全部重啟會自動恢復叢集狀態

昨天 測試環境上3主3從的redis節點叢集 虛擬機器3臺全部宕機(3主3從交叉部署在3臺虛機上)重新啟動各個節點發現  叢集自動恢復了  本來以為要重新使用create  命令猜測叢集是根據node的主從資訊檔案自己恢復的 利用心跳檢測 節點關係的檔案node-7001.c

Redis Cluster節點伺服器導致叢集重啟失敗案例

這裡說下自己碰到的一種情況: redis cluster叢集由三個節點伺服器組成,一個6個redis例項,每個節點開啟2個埠,三主三從。reids部署目錄是/data/redis-4.0.1,叢集情況如下: 172.16.50.245:7000 master主節點 1

Redis叢集重啟

 Redis叢集宕機問題: 如果redis掛掉,或者伺服器突然斷電,要刪除以下節點下檔案 ;我的節點路徑是 /redis/src 1)將每個節點下appendonly.aof dump.rdb no

計算節點,vm的遷移方法

當計算節點異常斷電或者發生故障後,導致計算節點無法正常工作,這時該計算節點上面的vm如何遷移到別的可用計算節點上呢? 由於宕機的計算節點上面的nova-compute服務已經down了,所以shelve和migrate操作無法執行,會報錯。 nova中提供了Evacuate

CentOS上某一使用者處理辦法

Linux 宕機有很多種情況,最常見的是系統負載過高。系統負載過高導致的卡死,一解決的越快越好! 必須要養成不依賴任何圖形介面的東西,通常使用windows的人都有這習慣,這隻會繼續加重這種卡死的局面。 解決辦法:使用linux的文字介面tty。按 Ctrl-Alt-

遭遇難以想象4天的,Netflix用7年時間轉型為最超前的微服務架構

Netflix 是歐美地區最大的網路視訊提供商,使用者超過了 Youtube。全球每天有超過 190 個國家,一億多會員在 Netflix 上觀看 1.2 億小時的電影、電視劇和紀錄片等等。同時,Netflix 也製作了像紙牌屋這樣的廣受歡迎的電視劇。 為了支援大流量,高併發的訪問,Netflix

孫其功陪你學之--虛擬機器突然掉電或者,虛擬機器不能正常啟動

 本人運氣不佳,電腦執行中被斷電,導致虛擬機器無法開啟,但之前寫的程式無法找到。運用以下方法,恢復了之前的文件!深有體會啊,文件備份的重要啊 虛擬機器突然掉電或者宕機後,虛擬機器不能正常啟動的情況。虛

Greenplum -- segment 恢復

一、備份原理: GPDB4.x中:是基於檔案複製同步,如果個別segment宕機,整個資料庫依然可以執行,當Mirror宕機時,Primary會記錄在這個階段檔案變化的資料塊,等到Mirror恢復了,再把資料塊複製過去;當Primary宕機了,那麼對於的Mirror節點就會替換Primary,記錄檔案變化的

簡訊貓AT指令遠端重啟動

在某寶上購買的簡訊貓長時間無操作後,會自動關機,AT指令正常,SIM卡會不可用,打不通號碼,原因不明,可以通過以下指令重新啟動SIM卡: AT+CFUN=0 (停止模組) AT+CFUN=1 (啟動模組)

輔域重新加域

實驗背景: 兩臺伺服器,一主一輔,輔域發現無法從主域同步資訊,日誌顯示的錯誤id為1864,資訊為:此目錄伺服器最近尚未接收到來自一系列目錄伺服器的複製資訊。 大體步驟: 輔域刪除域服務,使

Spring Cloud 公司專案實戰(Eureka相關):Eureka-Server 高可用叢集 關於主動踢出該節點

重要性:一級 問題 spring cloud Eureka註冊中心的重要性 什麼是高可用叢集 為何搭建註冊中心高可用叢集 為何要踢出宕機的節點 大家仔細想想以上的問題即可發現我們關於 示例:application-peer*.yml配置 sprin

openfilter 斷電,iscsi target 無法使用故障解決一列

openfilter伺服器電源出問題,換電源啟動後,結果很坑的發現在web管理介面 中無法使用iscis target了 如圖: 、 然後點ADD也不行。 經過查閱官方文件發現openfilter的iscis tagget是由/opt/openfilter/etc/i

解Bug之路-記一次對端機器的tcp行為

# 解Bug之路-記一次對端機器宕機後的tcp行為 ## 前言 機器一般過質保之後,就會因為各種各樣的問題而宕機。而這一次的宕機,讓筆者觀察到了平常觀察不到的tcp在對端宕機情況下的行為。經過詳細跟蹤分析原因之後,發現可以通過調整核心tcp引數來減少宕機造成的影響。 ## Bug現場 筆者所在的公司用某個中介

蘋果筆記本裝win7經常怎麼辦?

  大家都知道,蘋果電腦有自己自帶的mac系統,雖然很強大,但總有些人會用不慣,於是就重灌了win7系統。然而近來卻有使用者反應,蘋果筆記本裝win7後經常宕機,這種情況怎麼辦呢?下面跟快啟動小編一起來看看解決辦法吧。   解決方法:   1、重啟電腦,出完電腦品牌後,按F8,

上海仰邦BX-5K1,BX-5K2系列板卡加入定時開關指令現象及解決方案

  在9月份底需要給公司的環境監測裝置加入定時開關的功能,根據通訊協議,加入通訊協議後當時發現可以正常使用定時開關的功能,後來國慶放假就把裝置斷電了,等國慶回來後上電發現LED螢幕根本不亮,後來根據主機板發現與LED螢幕的驅動卡通訊失敗,後模擬程式後發現微控制器給驅動卡的所有指令都沒有迴應

使用redis做一次投票活動中tomcat 啟動一段時間redis.clients.jedis.exceptions.JedisDataException: value sent to redi

一個微信投票活動中專案扔tomcat中跑起來 ,後來投票後不間斷老司機,當時十分費解  ,小專案沒用日誌略坑,只能檢視tomcat日誌,於是看到日誌記錄報錯如下 Jun 17, 2017 7:52:53 AM org.apache.catalina.core.Standar