1. 程式人生 > >Linux kernel panic問題解決方法

Linux kernel panic問題解決方法

Linux kernel panic解決方法

kernel panic錯誤表現

kernel panic 主要有以下幾個出錯提示:
Kernel panic-not syncing fatal exception in interrupt
kernel panic - not syncing: Attempted to kill the idle task!
kernel panic - not syncing: killing interrupt handler!
Kernel Panic - not syncing
Attempted to kill init !

kernel錯誤分析

查看了一下

linux的原始碼檔案,找到相關位置
kernel/panic.c
NORET_TYPE void panic(const char * fmt, ...)
{
static char buf[1024];
va_list args;
bust_spinlocks(1);
va_start(args, fmt);
vsnprintf(buf, sizeof(buf), fmt, args);
va_end(args);
printk(KERN_EMERG "Kernel panic - not syncing: %s/n",buf);
bust_spinlocks(0);

kernel/exit.c

if (unlikely(in_interrupt()))
panic("Aiee, killing interrupt handler!"); #
中斷處理
if (unlikely(!tsk->pid))
panic("Attempted to kill the idle task!"); #
空任務
if (unlikely(tsk->pid == 1))
panic("Attempted to kill init!"); #
初始化從其他原始檔和相關文件看到應該有幾種原因:

1
、硬體問題使用了 SCSI-device 並且使用了未知命令

#WDIOS_TEMPPANIC Kernel panic on temperature trip
#
# The SETOPTIONS call can be used to enable and disable the card
# and to ask the driver to call panic if the system overheats.
#
# If one uses a SCSI-device of unsupported type/commands, one
# immediately runs into a kernel-panic caused by Command Error. To better
# understand which SCSI-command caused the problem, I extended this
# specific panic-message slightly.
#
#read/write causes a command error from
# the subsystem and this causes kernel-panic

2
、系統過熱如果系統過熱會呼叫panci,系統掛起

#WDIOS_TEMPPANIC Kernel panic on temperature trip
#
# The SETOPTIONS call can be used to enable and disable the card
# and to ask the driver to call panic if the system overheats.

3
、檔案系統引起

#A variety of panics and hangs with /tmp on a reiserfs filesystem
#Any other panic, hang, or strange behavior
#
# It turns out that there's a limit of six environment variables on the
# kernel command line. When that limit is reached or exceeded, argument
# processing stops, which means that the 'root=' argument that UML
# usually adds is not seen. So, the filesystem has no idea what the
# root device is, so it panics.
# The fix is to put less stuff on the command line. Glomming all your
# setup variables into one is probably the best way to go.

Linux
核心命令列有6個環境變數。如果即將達到或者已經超過了的話 root= 引數會沒有傳進去啟動時會引發panics錯誤。
vi grub.conf
#####################
title Red Hat Enterprise Linux AS (2.6.9-67.0.15.ELsmp)
root (hd0,0)
kernel /boot/vmlinuz-2.6.9-67.0.15.ELsmp ro root=LABEL=/
initrd /boot/initrd-2.6.9-67.0.15.ELsmp.img
title Red Hat Enterprise Linux AS-up (2.6.9-67.EL)
root (hd0,0)
kernel /boot/vmlinuz-2.6.9-67.EL ro root=LABEL=/
initrd /boot/initrd-2.6.9-67.EL.img

應該是其中的 root=LABEL=/ 沒有起作用。


4
、核心更新網上相關文件多半是因為升級核心引起的,建議使用官方標準版、穩定版另外還有使用磁碟的lvm 邏輯卷,新增CPU和記憶體。可在BIOS中禁掉音效卡驅動等不必要的裝置。

也有報是ext3檔案系統的問題。解決:手工編譯核心,把 ext3相關的模組都編譯進去,


5
、處理panic後的系統自動重啟

panic.c
原始檔有個方法,當panic掛起後,指定超時時間,可以重新啟動機器

if (panic_timeout > 0)
{
int i;
/*
* Delay timeout seconds before rebooting the machine.
* We can't use the "normal" timers since we just panicked..
*/
printk(KERN_EMERG "Rebooting in %d seconds..",panic_timeout);
for (i = 0; i < panic_timeout; i++) {
touch_nmi_watchdog();
mdelay(1000);
}

修改方法:
/etc/sysctl.conf
檔案中加入
kernel.panic = 30 #panic
錯誤中自動重啟,等待時間為30
kernel.sysrq=1 #
啟用Magic SysRq否則,鍵盤滑鼠沒有響應

Linux Kernel Panic之後的招數

Linux的穩定性勿容置疑,但是有些時候一些Kernel的致命錯誤還是會發生(有些時候甚至是因為硬體的原因或驅動故障),Kernel Panic會導致系統crash,並且預設的系統會一直hung在那裡,直到你去把它重新啟動!不過你可以在/etc/sysctl.conf檔案中加入
kernel.panic = 20
來告訴系統從Panic錯誤中自動重啟,等待時間為20秒!這個由管理員自己設定!另外一個討厭的事情是系統hung住之後,鍵盤滑鼠沒有響應,這個可以通過設定Magic SysRq來試著解決,也是在/etc/sysctl.conf中,
kernel.sysrq=1
來啟用Magic SysRq這樣在掛住的時候至少還有一招可以使,按住 [ALT]+[SysRq]+[COMMAND], 這裡SysRqPrint SCR鍵,而COMMAND按以下來解釋!b - 立即重啟
e -
傳送SIGTERMinit之外的系統程序
o -
關機
s - sync
同步所有的檔案系統
u -
試圖重新掛載檔案系統當然,誰也不希望經常用到這些招數!:O,有備無患而已

Kernel panic問題如何除錯

Linux kernel panic是很難定位和排查的重大故障,一旦系統發生了kernel panic,相關的日誌資訊非常少,而一種常見的排查方法重現法又很難實現,因此遇到kernel panic的問題,一般比較頭疼。

沒有一個萬能和完美的方法來解決所有的kernel panic問題,這篇文章僅僅只是給出一些思路,一來如何解決kernel panic的問題,二來可以儘可能減少發生kernel panic的機會。什麼是kernel panic

就像名字所暗示的那樣,它表示Linux kernel走到了一個不知道該怎麼走下一步的狀況,一旦到這個情況,kernel就儘可能把它此時能獲取的全部資訊都打印出來,至於能打印出多少資訊,那就看是那種情況導致它panic了。

有兩種主要型別kernel panic

1.hard panic(也就是Aieee資訊輸出)
2.soft panic (
也就是Oops資訊輸出)什麼能導致kernel panic

只有載入到核心空間的驅動模組才能直接導致kernel panic,你可以在系統正常的情況下,使用lsmod檢視當前系統載入了哪些模組。除此之外,內建在核心裡的元件(比如memory map等)也能導致panic

因為hard panicsoft panic本質上不同,因此我們分別討論。

如何排查hard panic

一般出現下面的情況,就認為是發生了kernel panic:

  1. 機器徹底被鎖定,不能使用
  2. 數字鍵(Num Lock),大寫鎖定鍵(Caps Lock),滾動鎖定鍵(Scroll Lock)不停閃爍。
  3. 如果在終端下,應該可以看到核心dump出來的資訊(包括一段”Aieee”資訊或者”Oops”資訊)
  4. Windows藍屏相似

原因:

對於hard panic而言,最大的可能性是驅動模組的中斷處理(interrupt handler)導致的,一般是因為驅動模組在中斷處理程式中訪問一個空指標(null pointre)。一旦發生這種情況,驅動模組就無法處理新的中斷請求,最終導致系統崩潰。

資訊收集根據panic的狀態不同,核心將記錄所有在系統鎖定之前的資訊。因為kenrel panic是一種很嚴重的錯誤,不能確定系統能記錄多少資訊,下面是一些需要收集的關鍵資訊,他們非常重要,因此儘可能收集全,當然如果系統啟動的時候就kernel panic,那就無法只知道能收集到多少有用的資訊了。

  1. /var/log/messages: 幸運的時候,整個kernel panic棧跟蹤資訊都能記錄在這裡。
  2. 應用程式/日誌: 可能可以從這些日誌資訊裡能看到發生panic之前發生了什麼。
  3. 其他發生panic之前的資訊,或者知道如何重現panic那一刻的狀態
  4. 終端螢幕dump資訊,一般OS被鎖定後,複製,貼上肯定是沒戲了,因此這類資訊,你可以需要藉助數碼相機或者原始的紙筆工具了。

如果kernel dump資訊既沒有在/var/log/message裡,也沒有在螢幕上,那麼嘗試下面的方法來獲取(當然是在還沒有宕機的情況下):

  1. 如果在圖形介面,切換到終端介面,dump資訊是不會出現在圖形介面的,甚至都不會在圖形模式下的虛擬終端裡。
  2. 確保螢幕不黑屏,可以使用下面的幾個方法:
    • setterm -blank 0
    • setterm -powerdown 0
    • setvesablank off
  3. 從終端,拷貝螢幕資訊(方法見上)

完整棧跟蹤資訊的排查方法

棧跟蹤資訊(stack trace)是排查kernel panic最重要的資訊,該資訊如果在/var/log/messages日誌裡當然最好,因為可以看到全部的資訊,如果僅僅只是在螢幕上,那麼最上面的資訊可能因為滾屏消失了,只剩下棧跟蹤資訊的一部分。如果你有一個完整棧跟蹤資訊的話,那麼就可能根據這些充分的資訊來定位panic的根本原因。要確認是否有一個足夠的棧跟蹤資訊,你只要查詢包含”EIP”的一行,它顯示了是什麼函式和模組呼叫時導致panic。大概就像下面這個例子一樣:

EIP is at _dlgn_setevmask [streams-dlgnDriver] 0xe

hard panic的一個完整跟蹤資訊例子:

Unable to handle kernel NULL pointer dereference at virtual address 0000000c

printing eip:

f89e568a

*pde = 32859001

*pte = 00000000

Oops: 0000

Kernel 2.4.9-31enterprise

CPU: 1

EIP: 0010:[<f89e568a>] Tainted: PF

EFLAGS: 00010096

EIP is at _dlgn_setevmask [streams-dlgnDriver] 0xe

eax: 00000000 ebx: f65f5410 ecx: f5e16710 edx: f65f5410

esi: 00001ea0 edi: f5e23c30 ebp: f65f5410 esp: f1cf7e78

ds: 0018 es: 0018 ss: 0018

Process pwcallmgr (pid: 10334, stackpage=f1cf7000)

Stack: 00000000 c01067fa 00000086 f1cf7ec0 00001ea0 f5e23c30 f65f5410 f89e53ec

f89fcd60 f5e16710 f65f5410 f65f5410 f8a54420 f1cf7ec0 f8a4d73a 0000139e

f5e16710 f89fcd60 00000086 f5e16710 f5e16754 f65f5410 0000034a f894e648

Call Trace: [setup_sigcontext+218/288] setup_sigcontext [kernel] 0xda

Call Trace: [<c01067fa>] setup_sigcontext [kernel] 0xda

[<f89e53ec>] dlgnwput [streams-dlgnDriver] 0xe8

[<f89fcd60>] Sm_Handle [streams-dlgnDriver] 0×1ea0

[<f8a54420>] intdrv_lock [streams-dlgnDriver] 0×0

[<f8a4d73a>] Gn_Maxpm [streams-dlgnDriver] 0×8ba

[<f89fcd60>] Sm_Handle [streams-dlgnDriver] 0×1ea0

[<f894e648>] lis_safe_putnext [streams] 0×168

[<f8a7b098>] __insmod_streams-dvbmDriver_S.bss_L117376 [streams-dvbmDriver] 0xab8

[<f8a78821>] dvbmwput [streams-dvbmDriver] 0×6f5

[<f8a79f98>] dvwinit [streams-dvbmDriver] 0×2c0

[<f894e648>] lis_safe_putnext [streams] 0×168

[<f893e6d8>] lis_strputpmsg [streams] 0×54c

[<f895482e>] __insmod_streams_S.rodata_L35552 [streams] 0×182e

[<f8951227>] sys_putpmsg [streams] 0×6f

[system_call+51/56] system_call [kernel] 0×33

[<c010719b>] system_call [kernel] 0×33

Nov 28 12:17:58 talus kernel:

Nov 28 12:17:58 talus kernel:

Code: 8b 70 0c 8b 06 83 f8 20 8b 54 24 20 8b 6c 24 24 76 1c 89 5c

完整棧資訊無效的排查方法

如果只有部分跟蹤資訊,要快速定位問題的根本原因就變得很難,因為沒有明顯的資訊來告訴我們是哪個模組或者函式的呼叫導致了核心panic,你可能只能看到kernel最後的一些指令。這種情況下,要儘可能多的收集資訊,包括程式日誌,庫的跟蹤資訊,故障重現的步驟等。

Hard panic 部分跟蹤資訊例子(沒有EIP資訊):
[<c01e42e7>] ip_rcv [kernel] 0×357
[<f8a179d5>] sramintr [streams_dlgnDriver] 0×32d
[<f89a3999>] lis_spin_lock_irqsave_fcn [streams] 0×7d
[<f8a82fdc>] inthw_lock [streams_dlgnDriver] 0×1c
[<f8a7bad8>] pwswtbl [streams_dlgnDriver] 0×0
[<f8a15442>] dlgnintr [streams_dlgnDriver] 0×4b
[<f8a7c30a>] Gn_Maxpm [streams_dlgnDriver] 0×7ae
[<c0123bc1>] __run_timers [kernel] 0xd1
[<c0108a6e>] handle_IRQ_event [kernel] 0×5e
[<c0108c74>] do_IRQ [kernel] 0xa4
[<c0105410>] default_idle [kernel] 0×0
[<c0105410>] default_idle [kernel] 0×0
[<c022fab0>] call_do_IRQ [kernel] 0×5
[<c0105410>] default_idle [kernel] 0×0
[<c0105410>] default_idle [kernel] 0×0
[<c010543d>] default_idle [kernel] 0×2d
[<c01054c2>] cpu_idle [kernel] 0×2d
[<c011bb86>] __call_console_drivers [kernel] 0×4b
[<c011bcfb>] call_console_drivers [kernel] 0xeb
Code: 8b 50 0c 85 d2 74 31 f6 42 0a 02 74 04 89 44 24 08 31 f6 0f
<0> Kernel panic: Aiee, killing interrupt handler!
In interrupt handler – not syncing

使用核心除錯工具(kenrel debugger ,aka KDB)

如果跟蹤資訊只有一部分且不足以用來定位問題的根本原因時,kernel debugger(KDB)就需要請出來了。
KDB
編譯到核心裡,panic發生時,他將核心引導到一個shell環境而不是鎖定。這樣,我們就可以收集一些與panic相關的資訊了,這對我們定位問題的根本原因有很大的幫助。

使用KDB需要注意,核心必須是基本核心版本,比如是2.4.18,而不是2.4.18-5這樣子的,因為KDB僅對基本核心有效。

如何排查soft panic

症狀:

  1. 沒有hard panic嚴重
  2. 通常導致段錯誤(segmentation fault)
  3. 可以看到一個oops資訊,/var/log/messages裡可以搜尋到’Oops’
  4. 機器稍微還能用(但是收集資訊後,應該重啟系統)

原因:

凡是非中斷處理引發的模組崩潰都將導致soft panic。在這種情況下,驅動本身會崩潰,但是還不至於讓系統出現致命性失敗,因為它沒有鎖定中斷處理例程。導致hard panic的原因同樣對soft panic也有用(比如在執行時訪問一個空指標)

資訊收集:soft panic發生時,核心將產生一個包含核心符號(kernel symbols)資訊的dump資料,這個將記錄在/var/log/messages裡。為了開始排查故障,可以使用ksymoops工具來把核心符號資訊轉成有意義的資料。

為了生成ksymoops檔案,需要:

  • /var/log/messages裡找到的堆疊跟蹤文字資訊儲存為一個新檔案。確保刪除了時間戳(timestamp),否則ksymoops會失敗。
  • 執行ksymoops程式(如果沒有,請安裝)
  • 詳細的ksymoops執行用法,可以參考ksymoops(8)手冊。

下面是一個soft panicoopsg跟蹤例子:

Code: 8b 70 0c 50 e8 69 f9 f8 ff 83 c4 10 83 f8 08 74 35 66 c7 47
EIP; f89ba71e <[streams-dlgnDriver]_dlgn_setidlestate+1e/8c>
Trace; f8951bd6 <[streams]lis_wakeup_close+86/110>
Trace; f8a2705c <[streams-dlgnDriver]__module_parm_r4_feature+280/1453>
Trace; f8a27040 <[streams-dlgnDriver]__module_parm_r4_feature+264/1453>
Trace; f89b9198 <[streams-dlgnDriver]dlgnwput+e8/204>

案例分析

Kernel Panic -- not syncing: attempted to kill idle task

出現這種錯誤是進入不了作業系統的,kernel panic的成因有多種多樣,但這種情況是比較奇特的一種,因為它很可能不是軟體的問題,而是硬體的問題。幾年前我用帶奔三的舊主機板時遇到過,當時不知道如何解決,只知道它偶爾出現,放一放也會自行消失,所以當初沒有重視。現在,當我重新用上舊主機板,這種情況又出現了,而且這一次比較頑固,無論怎樣重啟,總是這條錯誤,不但硬碟上現有的兩個作業系統都進不去,而且連光碟機裡的LiveCD也進不去了,這顯然不是硬碟的問題,也不是核心的問題。以前我就明白應該是主機板的問題,可能是主機板太舊,電路訊號不太通暢的原因,但不知道怎麼辦,害得我一天一宿沒上網。今天早上去網咖,查了點資料,大體上有幾種說法:

一種是在grub作核心引導時新增idle引數,這一種是國內網常見的一種說法;

第二個方法是注意一下bios中顯示的CPU或者記憶體條的溫度;

第三種是重新作initrd,即mkinitrd

第四種是在grub中啟動memtest86來測試記憶體,

這幾個是外國人的論壇上說的。我回到家以後,先試了第一種,加了idle的各種引數後,毫無效果,關於第二種方法,我在bios中看到似乎硬體的溫度不是可以調節的,但我從這個思路出發,考慮到,如果與記憶體有關,不妨把三個記憶體條互換一下位置,也許有效,於是,我把我的三個SD記憶體換了位置,然後開機,一切正常了。

Kernel Panic -- not syncing: attempted to kill init

這一種情況的表現是系統的極不穩定。或者進入不了系統,syslog停止於kernel panic;或者重啟後可以進入系統,但不久就宕機,鍵盤上的Caps-LockScroll-Lock兩個燈在閃。這種錯誤與上面那個有相同的成因,解決方法也相同。