一條502報警引發的胡思亂想
就在安心養神的時候, 同事轉給了我一條nginx 502的報警, 趕緊去線上一頓排查。
首先得先找出哪臺機器報出的(同時喊運維看下線上負載情況), 發現01機器的nginx日誌在報警時間點的錯誤資訊:
*272881176 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: xx.xx.xx.xx, server: , request: "POST /xxx/xxx HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "xx.xx.xx.xx:8081"
recv()為接收返回資料的系統函式,基本可以先認為報錯原因為
Nginx發現某服務與自己通訊的連線斷掉了,就會返回給客戶端502錯誤。
那麼nginx是從哪裡接收資料呢,報錯資訊同樣很明顯,fastcgi://127.0.0.1:9000
思考緣由
同樣思考為什麼php的處理程序會中斷呢?
- 莫非執行任務超時,fpm主動殺死?
- 又莫非系統資源不足,系統殺死
同樣針對這兩種情況,排查結果:
- 報警的此介面並不是特別複雜的介面,執行時間也並不長,以前也並未出現過問題
- 通過zabbix、埋點監控、系統負載檢視,cpu、記憶體、fpm整體程序情況也比較正常
順便也看了下 fpm的錯誤日誌、慢日誌,也沒有什麼收穫(此處很可能會忽略掉了重要資訊)
蛛絲馬跡
於是既然認為是fpm出了問題,就調研下fpm的配置檔案吧
pid = /usr/local/var/run/php-fpm.pid #pid設定,一定要開啟,上面是Mac平臺的。預設在php安裝目錄中的var/run/php-fpm.pid。比如centos的在: /usr/local/php/var/run/php-fpm.pid error_log= /usr/local/var/log/php-fpm.log #錯誤日誌,上面是Mac平臺的,預設在php安裝目錄中的var/log/php-fpm.log,比如centos的在: /usr/local/php/var/log/php-fpm.log log_level = notice #錯誤級別. 上面的php-fpm.log紀錄的登記。可用級別為: alert(必須立即處理), error(錯誤情況), warning(警告情況), notice(一般重要資訊), debug(除錯資訊). 預設: notice. emergency_restart_threshold = 60 emergency_restart_interval = 60s #表示在emergency_restart_interval所設值內出現SIGSEGV或者SIGBUS錯誤的php-cgi程序數如果超過 emergency_restart_threshold個,php-fpm就會優雅重啟。這兩個選項一般保持預設值。0 表示 '關閉該功能'. 預設值: 0 (關閉). process_control_timeout = 0 #設定子程序接受主程序複用訊號的超時時間. 可用單位: s(秒), m(分), h(小時), 或者 d(天) 預設單位: s(秒). 預設值: 0. daemonize = yes #後臺執行fpm,預設值為yes,如果為了除錯可以改為no。在FPM中,可以使用不同的設定來執行多個程序池。 這些設定可以針對每個程序池單獨設定。 listen = 127.0.0.1:9000 #fpm監聽埠,即nginx中php處理的地址,一般預設值即可。可用格式為: 'ip:port', 'port', '/path/to/unix/socket'. 每個程序池都需要設定。如果nginx和php在不同的機器上,分散式處理,就設定ip這裡就可以了。 listen.backlog = -1 #backlog數,設定 listen 的半連線佇列長度,-1表示無限制,由作業系統決定,此行註釋掉就行。backlog含義參考:http://www.3gyou.cc/?p=41 listen.allowed_clients = 127.0.0.1 #允許訪問FastCGI程序的IP白名單,設定any為不限制IP,如果要設定其他主機的nginx也能訪問這臺FPM程序,listen處要設定成本地可被訪問的IP。預設值是any。每個地址是用逗號分隔. 如果沒有設定或者為空,則允許任何伺服器請求連線。 listen.owner = www listen.group = www listen.mode = 0666 #unix socket設定選項,如果使用tcp方式訪問,這裡註釋即可。 user = www group = www #啟動程序的使用者和使用者組,FPM 程序執行的Unix使用者, 必須要設定。使用者組,如果沒有設定,則預設使用者的組被使用。 pm = dynamic #php-fpm程序啟動模式,pm可以設定為static和dynamic和ondemand #如果選擇static,則程序數就數固定的,由pm.max_children指定固定的子程序數。 #如果選擇dynamic,則程序數是動態變化的,由以下引數決定: pm.max_children = 50 #子程序最大數 pm.start_servers = 2 #啟動時的程序數,預設值為: min_spare_servers + (max_spare_servers - min_spare_servers) / 2 pm.min_spare_servers = 1 #保證空閒程序數最小值,如果空閒程序小於此值,則建立新的子程序 pm.max_spare_servers = 3 #,保證空閒程序數最大值,如果空閒程序大於此值,此進行清理 pm.max_requests = 10000 #設定每個子程序重生之前服務的請求數. 對於可能存在記憶體洩漏的第三方模組來說是非常有用的. 如果設定為 '0' 則一直接受請求. 等同於 PHP_FCGI_MAX_REQUESTS 環境變數. 預設值: 0. pm.status_path = /status #FPM狀態頁面的網址. 如果沒有設定, 則無法訪問狀態頁面. 預設值: none. munin監控會使用到 ping.path = /ping #FPM監控頁面的ping網址. 如果沒有設定, 則無法訪問ping頁面. 該頁面用於外部檢測FPM是否存活並且可以響應請求. 請注意必須以斜線開頭 (/)。 ping.response = pong #用於定義ping請求的返回相應. 返回為 HTTP 200 的 text/plain 格式文字. 預設值: pong. access.log = log/$pool.access.log #每一個請求的訪問日誌,預設是關閉的。 access.format = "%R - %u %t \"%m %r%Q%q\" %s %f %{mili}d %{kilo}M %C%%" #設定訪問日誌的格式。 slowlog = log/$pool.log.slow #慢請求的記錄日誌,配合request_slowlog_timeout使用,預設關閉 request_slowlog_timeout = 10s #當一個請求該設定的超時時間後,就會將對應的PHP呼叫堆疊資訊完整寫入到慢日誌中. 設定為 '0' 表示 'Off' request_terminate_timeout = 0 #設定單個請求的超時中止時間. 該選項可能會對php.ini設定中的'max_execution_time'因為某些特殊原因沒有中止執行的指令碼有用. 設定為 '0' 表示 'Off'.當經常出現502錯誤時可以嘗試更改此選項。 rlimit_files = 1024 #設定檔案開啟描述符的rlimit限制. 預設值: 系統定義值預設可開啟控制代碼是1024,可使用 ulimit -n檢視,ulimit -n 2048修改。 rlimit_core = 0 #設定核心rlimit最大限制值. 可用值: 'unlimited' 、0或者正整數. 預設值: 系統定義值. chroot = #啟動時的Chroot目錄. 所定義的目錄需要是絕對路徑. 如果沒有設定, 則chroot不被使用. chdir = #設定啟動目錄,啟動時會自動Chdir到該目錄. 所定義的目錄需要是絕對路徑. 預設值: 當前目錄,或者/目錄(chroot時) catch_workers_output = yes #重定向執行過程中的stdout和stderr到主要的錯誤日誌檔案中. 如果沒有設定, stdout 和 stderr 將會根據FastCGI的規則被重定向到 /dev/null . 預設值: 空. 複製程式碼
摘自www.zybuluo.com/phper/note/…
單獨拿出幾個重要配置項:
pm = static #php-fpm程序啟動模式,pm可以設定為static和dynamic和ondemand #如果選擇static,則程序數就數固定的,由pm.max_children指定固定的子程序數。 pm.max_children = 500 #子程序最大數 request_terminate_timeout=30 #設定單個請求的超時中止時間. 該選項可能會對php.ini設定中的'max_execution_time'因為某些特殊原因沒有中止執行的指令碼有用. 設定為 '0' 表示 'Off'.當經常出現502錯誤時可以嘗試更改此選項。 request_slowlog_timeout=3 #當一個請求該設定的超時時間後,就會將對應的PHP呼叫堆疊資訊完整寫入到慢日誌中. 設定為 '0' 表示 'Off' pm.max_requests=10000 #設定每個子程序重生之前服務的請求數. 對於可能存在記憶體洩漏的第三方模組來說是非常有用的. 如果設定為 '0' 則一直接受請求. 等同於 PHP_FCGI_MAX_REQUESTS 環境變數. 預設值: 0. 複製程式碼
開始學習
以上便是我們線上的主要配置,主要還是集中在了 request_terminate_timeout 這個引數上。它和php.ini的 max_execution_time 有什麼區別
set_time_limit()函式和配置指令max_execution_time隻影響指令碼本身執行的時間。任何發生在諸如使用system()的系統呼叫,流操作,資料庫操作等的指令碼執行的最大時間不包括其中,而 request_terminate_timeout 是包含所有時間的
php.ini配置時間同樣也為30,但是相比而言,request_terminate_timeout時間會更短。
迴歸正題
但前文我們明明說了,這個介面並不是很複雜啊。..應該不會超時啊,當時第三方服務也沒有什麼異常情況,fpm錯誤日誌也並沒有這個超時錯誤資訊。各個依賴的系統負載都還處於比較低峰期狀態
在疑問中結束了今天的工作,回來打算寫一下分享今天的除錯經歷,在搜尋文件的時候又發現了這麼一句話:
複製別人文章
Nginx 502 Bad Gateway錯誤
在php.ini和php-fpm.conf中分別有這樣兩個配置項:max_execution_time和request_terminate_timeout。
這兩項都是用來配置一個PHP指令碼的最大執行時間的。當超過這個時間時,PHP-FPM不只會終止指令碼的執行,
還會終止執行指令碼的Worker程序。所以Nginx會發現與自己通訊的連線斷掉了,就會返回給客戶端502錯誤。
以PHP-FPM的request_terminate_timeout=30秒時為例,報502 Bad Gateway錯誤的具體資訊如下:
1)Nginx錯誤訪問日誌:
2013/09/19 01:09:00 [error] 27600#0: *78887 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: 192.168.1.101, server:test.com, request: "POST /index.php HTTP/1.1", upstream: "fastcgi://unix:/dev/shm/php-fcgi.sock:", host: "test.com", referrer: "test.com/index.php"
2)PHP-FPM報錯日誌:
WARNING:child 25708 exited on signal 15 (SIGTERM) after 21008.883410 seconds from start 複製程式碼
所以只需將這兩項的值調大一些就可以讓PHP指令碼不會因為執行時間長而被終止了。
request_terminate_timeout可以覆蓋max_execution_time,所以如果不想改全域性的php.ini,那隻改PHP-FPM的配置就可以了。
此外要注意的是Nginx的upstream模組中的max_fail和fail_timeout兩項。有時Nginx與上游伺服器(如Tomcat、FastCGI)的通訊只是偶然斷掉了,但max_fail如果設定的比較小的話,那麼在接下來的fail_timeout時間內,Nginx都會認為上游伺服器掛掉了,都會返回502錯誤。所以可以將max_fail調大一些,將fail_timeout調小一些。
摘自最棒的51cto:blog.51cto.com/nanchunle/1…
自圓其說
對於nginx的upstream模組並不是很瞭解,回憶當時報錯場景,確實發現日誌裡面前後報了幾個不同介面同樣的錯誤,也可能是其他介面影響了此介面,只是它正好被報警系統抓取到。
反思
思考問題可能過於片面,沒有解決問題的一套體系、思路,容易繞彎路、甚至南轅北轍。