報錯kernel:NMI watchdog: BUG: soft lockup - CPU#0 stuck for 26s

阿新 • • 發佈：2017-12-07

堆棧超時函數 roo aid 時鐘中斷機制 int return

近期在服務器跑大量高負載程序，造成cpu soft lockup。如果確認不是軟件的問題。

解決辦法:

#追加到配置文件中

echo 30 > /proc/sys/kernel/watchdog_thresh

#查看

[root@git-node1 data]# tail -1 /proc/sys/kernel/watchdog_thresh
30

#臨時生效

sysctl -w kernel.watchdog_thresh=30

#內核軟死鎖（soft lockup）bug原因分析

Soft lockup名稱解釋：所謂，soft lockup就是說，這個bug沒有讓系統徹底死機，但是若幹個進程（或者kernel thread）被鎖死在了某個狀態（一般在內核區域），很多情況下這個是由於內核鎖的使用的問題。

vi /etc/sysctl.conf

kernel.watchdog_thresh=30

參考文章：

CentOS內核，對應的文件是/proc/sys/kernel/watchdog_thresh。
CentOS內核和標準內核還有一個地方不一樣，就是處理CPU占用時間過長的函數，CentOS下是watchdog_timer_fn()函數。

如果你的內核是標準內核的話，可以通過修改/proc/sys/kernel/softlockup_thresh來修改超時的閾值

參考文獻:https://zhidao.baidu.com/question/1829924822713415300.html

首先，這條信息可以輸出，說明即使發生死鎖或者死循環，還是有代碼可以執行。第二，可以通過這個日誌信息，找到對應的處理函數，這個函數所在的模塊就是用來處理CPU被過度使用時用到的。所以通過這個事情，可以看到內核打印出的只言片語都有可能成為你解決問題的關鍵，一定要從重視這些信息，從中找出有用的東西。
我經常看的內核版本是官方的2.6.32內核，這個版本中我找到的函數是softlockup_tick()，這個函數在時鐘中斷的處理函數run_local_timers()中調用。這個函數會首先檢查watchdog線程是否被掛起，如果不是watchdog線程，會檢查當前占有CPU的線程占有的時間是否超過系統配置的閾值，即softlockup_thresh。如果當前占有CPU的時間過長，則會在系統日誌中輸出我們上面看到的那條日誌。接下來才是最關鍵的，就是輸出模塊信息、寄存器信息和堆棧信息，檢查softlockup_panic的值是否為1。如果softlockup_panic為1，則調用panic()讓內核掛起，輸出OOPS信息。代碼如下所示：/** This callback runs from the timer interrupt, and checks
* whether the watchdog thread has hung or not:*/void softlockup_tick(void){int this_cpu = smp_processor_id();
unsigned long touch_timestamp = per_cpu(touch_timestamp, this_cpu);
unsigned long print_timestamp;
struct pt_regs *regs = get_irq_regs();
unsigned long now;
/* Warn about unreasonable delays: */
if (now <= (touch_timestamp + softlockup_thresh))return;
per_cpu(print_timestamp, this_cpu) = touch_timestamp;
spin_lock(&print_lock);
printk(KERN_ERR BUG: soft lockup - CPU#%d stuck for %lus! [%s:%d]\n,
this_cpu, now - touch_timestamp,
current-comm, task_pid_nr(current));
print_modules();
print_irqtrace_events(current);if (regs)show_regs(regs);elsedump_stack();
spin_unlock(&print_lock);
if (softlockup_panic)
panic(softlockup: hung tasks);}
但是softlockup_panic的值默認竟然是0，所以在出現死鎖或者死循環的時候，會一直只輸出日誌信息，而不會宕機，這個真是好坑啊！所以你得手動修改/proc/sys/kernel/softlockup_panic的值，讓內核可以在死鎖或者死循環的時候可以宕機。如果你的機器中安裝了kdump，在重啟之後，你會得到一份內核的core文件，這時從core文件中查找問題就方便很多了，而且再也不用手動重啟機器了。如果你的內核是標準內核的話，可以通過修改/proc/sys/kernel/softlockup_thresh來修改超時的閾值，如果是CentOS內核的話，對應的文件是/proc/sys/kernel/watchdog_thresh。CentOS內核和標準內核還有一個地方不一樣，就是處理CPU占用時間過長的函數，CentOS下是watchdog_timer_fn()函數。
這裏介紹下lockup的概念。lockup分為soft lockup和hard lockup。 soft lockup是指內核中有BUG導致在內核模式下一直循環的時間超過10s（根據實現和配置有所不同），而其他進程得不到運行的機會。hard softlockup是指內核已經掛起，可以通過watchdog這樣的機制來獲取詳細信息。

報錯kernel:NMI watchdog: BUG: soft lockup - CPU#0 stuck for 26s

堆棧超時函數 roo aid 時鐘中斷機制 int return 近期在服務器跑大量高負載程序，造成cpu soft lockup。如果確認不是軟件的問題。解決辦法: #追加到配置文件中 echo 30 > /proc/sys/kernel/watchd

Linux Kernel BUG:soft lockup CPU問題（二）

產品大使用者場景下執行一段時間即報“Aug 7 19:19:58 localhost kernel: NMI watchdog: BUG: soft lockup - CPU#7 stuck for 23s! [xxxx:80779]" 錯誤，核心日誌呼叫棧顯示是在獲取鎖時

ubuntu 安裝完成後重啟電腦報錯: BUG soft lockup 的解決辦法

安裝 Ubuntu 出現 BUG soft lockup 的解決辦法（18.04）：想具體瞭解這條錯誤的內容，請參考此連結： https://www.cnblogs.com/vmtauto/p/7427913.html出現這條資訊說明： CUP 過度使用，Linux的核心鎖

kernel bug --- soft lockup

最近搭建了一個pxe無人值守自動裝機，從script自動化搭建pxe到自動安裝。昨晚安裝了幾個不同的系統測試，今早發現pxe server報錯如下： kernel: BUG: soft lockup - CPU#0 stuck for 124s! [vmtoolsd:1638]

關於Spyder中執行pyqt程式報錯kernel died, restarting的問題解決

Spyder的確是一款體驗不錯的IDE，不過最近在其中反覆執行或除錯有關pyqt的程式碼時，總是會提示”kernel died，restarting”，這就需要等待一段時間，核心重啟之後才能執行程式，這會消耗我們不少的時間和興致，後來在stackoverflow和github上找到了Spyd

Python 執行某一個模組的時候報錯 kernel died ,restarting

在spider上面進行模型建立的時候，執行到某一個模組時，出現 kernel died ,restarting 的報錯。搜解決方案，大部分是說原因是spider某一個模組出了問題，版本太低或者是環境變數配置錯誤，於是 1、升級spider，沒有解決 2、檢查環境

Android 8.0 廣色域影象的支援導致Fresco報錯無法顯示的BUG bitmap marked for reuse （xxxx bytes) can't fit new bitmap (xx

突然發現，8、0以上的手機用Fresco展示某些圖片的時候，會出現無法載入的情況，報錯bitmap marked for reuse （xxxx bytes) can't fit new bitm

遇到“BUG: soft lockup

之前開發的抓包模組上線後有客戶反饋有丟包問題，這兩天在定位這個丟包問題，抓包模組由我和另一名“隊友”負責，我負責底層抓包開發，他負責接收處理。在測試丟包問題的時候，他遇到一個板子連不上的情況，問我咋回事，剛好看到了log列印一行， [27468.016028] BUG: s

yum報錯setup has installed conflicts filesystem < ('0', '3', None): filesystem

yum安裝軟件報錯yum安裝出現以下錯誤：Error: Depsolving loop limit reached.Error: Package: cloog-ppl-0.15.7-1.2.el6.x86_64 (@anaconda-CentOS-201508042137.x86_64/6.7)

遠程登陸mysql報錯：ERROR 1130 (HY000): Host '10.0.0.8' is not allowed to connect to this MySQL server

image code 再次 light 解決辦法 allow this 解決 ror 問題原因：在數據庫遷移到mysql主機後遠程登陸mysql報錯： ERROR 1130 (HY000): Host ‘10.0.0.8‘ is not allowed to connec

selenium運行火狐報錯FirefoxDriver : Unable to connect to host 127.0.0.1 on port 7055

jar包 .html 各版本 -s gpo jar htm adding fire 摘要: 這是個常見的啟動firefoxdriver的問題，具體的錯誤日誌如下，其實原因很簡單，就是你的Selenium版本和firefox 不兼容了。 Firefox 版本太高了, 請及

關於Android Studio 3.0 報錯 com.android.tools.aapt2.Aapt2Exception: AAPT2 error: check logs for details

當你使用android外掛for gradle 3.0時，會預設啟用Aapt2。 Android的Gradle 3.0外掛預設啟動Aapt2，目的是為了改進增量資源的處理。aapt2 適配之資源 id 固定在網上大部分給出的解決方案都是在工程目錄下開啟gradle.prop

vs2017+opencv3.4.3報錯 OpenCV Error: Assertion failed (size.width>0 && size.height>0) in imshow

看了好多帖子，都說什麼路徑問題，要改成絕對路徑等等。這固然沒錯，但是相對路徑的話，圖片要放在和.cpp檔案的同一個資料夾下。而且，剛買的電腦圖片格式沒有後綴.jpg，如圖所示。但是在程式碼裡要寫成1.jpg。 #include <iostream> using names

資料庫報錯com.mysql.jdbc.MysqlDataTruncation: Data truncation: Data too long for column 'ua' at row 1

記一次報錯記錄，成長路上的點滴明明使用瀏覽器或者微信開發工具除錯介面沒有問題，但是在真機測試時候就出問題了。（（(¬_¬)） 500伺服器內部錯誤，要死的節奏啊登陸tomcat伺服器使用命令tail -f /usr/local/tomcat/logs/catalina.out 檢視實時日誌輸出

虛擬機器電腦之間的遷移以及靜態IP的配置，以及虛擬機器遷移後重啟網絡卡報錯：Error:No suitable device found: no device found for connection "S

1.虛擬機器遷移後網絡卡的配置：‘ 自己電腦容量不夠了，準備將資料遷移到公司電腦，但是虛擬機器中做了好多配置，重新安裝會很麻煩，感覺虛擬機器是不是可以直接匯出匯入，保留配置。百度後找到了解決方法。 VMware虛擬機器遷移過程： ’右鍵選擇vmware中的虛擬機器，選擇開啟虛擬機器目錄，

【Mac + Appium】之執行報錯：[UiAutomator] UiAutomator exited unexpectedly with code 0, signal null

產生下面的原因是因為：與uiautomator2的weditor衝突，兩者不能同事使用。有事開啟appium時會報錯： [UiAutomator] UiAutomator exited unexpectedly with code 0, signal null 經查詢有以下兩個方案： ①《UiAut

微信開發插入暱稱報錯 Incorrect string value: '\xF0\x9F\x99\x8F' for column

做微信公眾號或者小程式開發時，經常會有需要儲存使用者暱稱的地方，但是微信對暱稱相容比較多，像表情符號特殊符號什麼的都能存進去，這樣的話，如果資料庫字符集設定成utf8就好報如下錯誤： Incorrect string value: '\xF0\x9F\x99\x8F' for column

控制檯報錯： java.lang.IllegalStateException: getOutputStream() has already been called for this response.

1、錯誤描述 Caused by: java .lang .IllegalStateException:

Django REST Framework報錯magic = unpack('I', buf[:4])[0] struct.error:unpack requires a bytes object

使用Django+DRF開發莫名報了此錯誤最終找到的答案是環境不相容報錯magic = unpack(’<I’, buf[:4])[0] struct.error:unpack requires a bytes object of length

成功解決PIP安裝模組報錯，You are using pip version 9.0.1, however version xxx is available

在PIP安裝模組時，發現報以下錯誤： You are using pip version 9.0.1, however version 18.1 is available. You should consider upgrading via the 'python -m p

報錯kernel:NMI watchdog: BUG: soft lockup - CPU#0 stuck for 26s

相關推薦