記一次nginx負載均衡轉發錯誤 “no live upstreams while connecting to upstream ”

阿新 • • 發佈：2018-11-15

先描述一下環境，前段的負載均衡轉發給nginx，nginx再轉發給後端的應用伺服器。

nginx配置檔案如下：

upstream ads {

server ap1:8888 max_fails=1 fail_timeout=60s;

server ap2:8888 max_fails=1 fail_timeout=60s;

}

出現的現象是：

日誌裡面每隔一兩分鐘就會記錄一條類似 *379803415 no live upstreams while connecting to upstream 的日誌，

此外，還有大量的“upstream prematurely closed connection while reading response header from upstream”的日誌。

我們先看“no live upstreams”的問題。

看字面意思是nginx發現沒有存活的後端了，但是很奇怪的事情是，這段時間一直訪問都正常，並且用wireshark看到的也是有進來的，也有返回的。

現在只能從nginx原始碼的角度來看了。

因為是upstream有關的報錯，所以在ngx_http_upstream.c中查詢“no live upstreams”的關鍵字，可以找到如下程式碼（其實，你會發現，如果在nginx全域性程式碼中找的話，也只有這個檔案裡面有這個關鍵字）：

在這裡可以看出，當rc等於NGX_BUSY的時候，就會記錄“no live upstreams”的錯誤。

往上看1328行，可以發現rc的值又是ngx_event_connect_peer這個函式返回的。

ngx_event_connect_peer是在event/ngx_event_connect.c中實現的。這個函式中，只有這個地方會返回NGX_BUSY，其他地方都是NGX_OK或者NGX_ERROR或者NGX_AGAIN之類的。

rc = pc->get(pc, pc->data);

if (rc != NGX_OK) {

return rc;

}

這裡的pc是指向ngx_peer_connection_t結構體的指標， get是個ngx_event_get_peer_pt的函式指標，具體指向哪裡，一時無從得知。接著翻看ngx_http_upstream.c

在ngx_http_upstream_init_main_conf中看到了，如下程式碼：

uscfp = umcf->upstreams.elts;

for (i = 0; i < umcf->upstreams.nelts; i++) {

init = uscfp[i]->peer.init_upstream ? uscfp[i]->peer.init_upstream:

ngx_http_upstream_init_round_robin;

if (init(cf, uscfp[i]) != NGX_OK) {

return NGX_CONF_ERROR;

}

這裡可以看到，預設的配置為輪詢（事實上負載均衡的各個模組組成了一個連結串列，每次從連結串列到頭開始往後處理，從上面到配置檔案可以看出，nginx不會在輪詢前呼叫其他的模組），並且用ngx_http_upstream_init_round_robin初始化每個upstream。

再看ngx_http_upstream_init_round_robin函式，裡面有如下行：

r->upstream->peer.get = ngx_http_upstream_get_round_robin_peer;

這裡把get指標指向了ngx_http_upstream_get_round_robin_peer

在ngx_http_upstream_get_round_robin_peer中，可以看到：

if (peers->single) {

peer = &peers->peer[0];

if (peer->down) {

goto failed;

}

} else {

/* there are several peers */

peer = ngx_http_upstream_get_peer(rrp);

if (peer == NULL) {

goto failed;

}

再看看failed的部分：

failed:

if (peers->next) {

/* ngx_unlock_mutex(peers->mutex); */

ngx_log_debug0(NGX_LOG_DEBUG_HTTP, pc->log, 0, "backup servers");

rrp->peers = peers->next;

n = (rrp->peers->number + (8 * sizeof(uintptr_t) - 1))

/ (8 * sizeof(uintptr_t));

for (i = 0; i < n; i++) {

rrp->tried[i] = 0;

}

rc = ngx_http_upstream_get_round_robin_peer(pc, rrp);

if (rc != NGX_BUSY) {

return rc;

}

/* ngx_lock_mutex(peers->mutex); */

}

/* all peers failed, mark them as live for quick recovery */

for (i = 0; i < peers->number; i++) {

peers->peer[i].fails = 0;

}

/* ngx_unlock_mutex(peers->mutex); */

pc->name = peers->name;

return NGX_BUSY;

這裡就真相大白了，如果連線失敗了，就去嘗試連下一個，如果所有的都失敗了，就會進行quick recovery 把每個peer的失敗次數都重置為0，然後再返回一個NGX_BUSY，然後nginx就會列印一條no live upstreams ,最後又回到原始狀態，接著進行轉發了。

這就解釋了no live upstreams之後還能正常訪問。

重新看配置檔案，如果其中一臺有一次失敗，nginx就會認為它已經死掉，然後就會把以後的流量全都打到另一臺上面，當另外一臺也有一次失敗的時候，就認為兩個都死掉了，然後quick recovery，然後列印一條日誌。

這樣帶來的另一個問題是，如果幾臺同時認定一臺後端已經死掉的時候，會造成流量的不均衡，看zabbix監控的截圖也能看出來：

初步的解決方法：

upstream ads {

server ap1:8888 max_fails=1 fail_timeout=60s;

server ap2:8888 max_fails=1 fail_timeout=60s;

}

改成

upstream ads {

server ap1:8888 max_fails=5 fail_timeout=60s;

server ap2:8888 max_fails=5 fail_timeout=60s;

}

把max_fails從1改成5，效果很明顯，“no live upstreams”出現的概率變少了很多，但卻沒有完全消失。

另外，日誌裡面還會有大量的“upstream prematurely closed connection while reading response header from upstream”。

這次從原始碼上看，在執行ngx_http_upstream_process_header這個函式的時候，會報這個錯，但具體是網路原因還是其他原因不是很明顯，下面就tcpdump抓一下包。

其中54是nginx前端的負載均衡的地址，171是nginx地址，32是ap1的地址，另外ap2的地址是201

如截圖所示：

請求由負載均衡發到nginx上，nginx先是迴應ack給負載均衡，然後跟ap1進行三次握手，隨後傳送了一個長度為614的資料包給ap1.然而卻收到了一個ack和fin＋ack，從Ack＝615可以看出，這兩個包都是針對長度為614的資料包的迴應，後端app直接就把連線給關閉掉了！

再然後，nginx迴應給後端的app一個ack和fin＋ack，從Ack=2可以看出這是對fin＋ack的迴應。

再然後，nginx就向ap2發出了一個syn包，並且也收到了第一臺返回的ack。

第二張圖：

如圖，可以看出，nginx跟ap2三次握手後，也傳送了一個請求的資料包，同樣被直接關閉連線了。

隨後，nginx就把502返回給了負載均衡。

這裡的抓包又一次從側面支援了上面程式碼的分析。

記一次nginx負載均衡轉發錯誤 “no live upstreams while connecting to upstream ”

記一次nginx負載均衡轉發錯誤 “no live upstreams while connecting to upstream ”

nginx 報錯 connect() failed (111: Connection refused) while connecting to upstream

記一次Nginx反向代理負載均衡配置

記一次nginx錯誤

記一次Servlet中getAttribute的錯誤.

記一次Nginx+Keepalived高可用故障轉移

記一次與Shiro有關的錯誤，404導致session丟失需要重新登入

記一次nginx 反向代理grafana

記一次nginx部署Vue靜態頁面

記一次nginx反向代理隱藏引數

記一次nginx 502異常處理的判斷處理

記一次NGINX+PHP無法訪問

#記一次fragment使用空指標錯誤NullPointerException

記一次log4j日誌寫到錯誤檔案的問題

記一次斷電恢復ORA-01033錯誤

記一次AD域共享訪問錯誤（There are Currently No Logon Servers Available）的解決過程

記一次redis主從連線的錯誤

第一次遇到死鎖——記一次程式卡住問題的錯誤排查過程

記一次SWT folder '' does not exist.Please set ANDROID_SWT to poin...

記一次springcloud整合到專案中，無法啟動，Failed to start bean 'eurekaAutoServiceRegistration'

記一次nginx負載均衡轉發錯誤 “no live upstreams while connecting to upstream ”

相關推薦