linux 磁盤空間被占滿但找不到目標文件的問題處理 lsof命令
lsof簡介
在終端下輸入lsof即可顯示系統打開的文件,因為 lsof 需要訪問核心內存和各種文件,所以必須以 root 用戶的身份運行它才能夠充分地發揮其功能。
直接輸入lsof部分輸出為:
每行顯示一個打開的文件,若不指定條件默認將顯示所有進程打開的所有文件。
lsof輸出各列信息的意義如下:
COMMAND:進程的名稱
PID: 進程標識符
USER:進程所有者
FD: 文件描述符,應用程序通過文件描述符識別該文件。如cwd、txt等 TYPE:文件類型,如DIR、REG等
DEVICE:指定磁盤的名稱
SIZE:文件的大小
NODE:索引節點(文件在磁盤上的標識)
NAME:打開文件的確切名稱
FD 列中的文件描述符cwd 值表示應用程序的當前工作目錄,這是該應用程序啟動的目錄,除非它本身對這個目錄進行更改,txt 類型的文件是程序代碼,如應用程序二進制文件本身或共享庫,如上列表中顯示的 /sbin/init 程序。
其次數值表示應用程序的文件描述符,這是打開該文件時返回的一個整數。初始打開每個應用程序時,都具有三個文件描述符,從 0 到 2,分別表示標準輸入、輸出和錯誤流。
與 FD 列相比,Type 列則比較直觀。文件和目錄分別稱為 REG 和 DIR。而CHR 和 BLK,分別表示字符和塊設備;或者 UNIX、FIFO 和 IPv4,分別表示 UNIX 域套接字、先進先出 (FIFO) 隊列和網際協議 (IP) 套接字。
lsof使用實例
(1) 查找誰在使用文件系統
在卸載文件系統時,如果該文件系統中有任何打開的文件,操作通常將會失敗。那麽通過lsof可以找出那些進程在使用當前要卸載的文件系統,如下:
# lsof /GTES11
COMMAND PID USER FD
TYPE DEVICE SIZE NODE NAME
bash 4208 root cwd DIR 3,1 4096 2 /GTES11/
vim 4230 root cwd DIR 3,1 4096 2 /GTES11/
在這個示例中,用戶root正在其/GTES11目錄中進行一些操作。一個 bash是實例正在運行,並且它當前的目錄為/GTES11,另一個則顯示的是vim正在編輯/GTES11下的文件。要成功地卸載/GTES11,應該在通知用戶以確保情況正常之後,中止這些進程。 這個示例說明了應用程序的當前工作目錄非常重要,因為它仍保持著文件資源,並且可以防止文件系統被卸載。這就是為什麽大部分守護進程(後臺進程)將它們的目錄更改為根目錄、或服務特定的目錄(如 sendmail 示例中的 /var/spool/mqueue)的原因,以避免該守護進程阻止卸載不相關的文件系統。
(2) 恢復刪除的文件
當Linux計算機受到入侵時,常見的情況是日誌文件被刪除,以掩蓋攻擊者的蹤跡。管理錯誤也可能導致意外刪除重要的文件,比如在清理舊日誌時,意外地刪除了數據庫的活動事務日誌。有時可以通過lsof來恢復這些文件。
當進程打開了某個文件時,只要該進程保持打開該文件,即使將其刪除,它依然存在於磁盤中。這意味著,進程並不知道文件已經被刪除,它仍然可以向打開該文件時提供給它的文件描述符進行讀取和寫入。除了該進程之外,這個文件是不可見的,因為已經刪除了其相應的目錄索引節點。
在/proc 目錄下,其中包含了反映內核和進程樹的各種文件。/proc目錄掛載的是在內存中所映射的一塊區域,所以這些文件和目錄並不存在於磁盤中,因此當我們對這些文件進行讀取和寫入時,實際上是在從內存中獲取相關信息。大多數與 lsof 相關的信息都存儲於以進程的 PID 命名的目錄中,即 /proc/1234 中包含的是 PID 為 1234 的進程的信息。每個進程目錄中存在著各種文件,它們可以使得應用程序簡單地了解進程的內存空間、文件描述符列表、指向磁盤上的文件的符號鏈接和其他系統信息。lsof 程序使用該信息和其他關於內核內部狀態的信息來產生其輸出。所以lsof 可以顯示進程的文件描述符和相關的文件名等信息。也就是我們通過訪問進程的文件描述符可以找到該文件的相關信息。
當系統中的某個文件被意外地刪除了,只要這個時候系統中還有進程正在訪問該文件,那麽我們就可以通過lsof從/proc目錄下恢復該文件的內容。
假如由於誤操作將/var/log/messages文件刪除掉了,那麽這時要將/var/log/messages文件恢復的方法如下:
首先使用lsof來查看當前是否有進程打開/var/logmessages文件,如下:
# lsof |grep /var/log/messages
syslogd 1283 root 2w REG 3,3 5381017 1773647 /var/log/messages (deleted)
從上面的信息可以看到 PID 1283(syslogd)打開文件的文件描述符為 2。同時還可以看到/var/log/messages已經標記被刪除了。因此我們可以在 /proc/1283/fd/2 (fd下的每個以數字命名的文件表示進程對應的文件描述符)中查看相應的信息,如下:
# head -n 10 /proc/1283/fd/2
Aug 4 13:50:15
holmes86 syslogd 1.4.1: restart.
Aug 4 13:50:15 holmes86 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Aug 4 13:50:15 holmes86 kernel: Linux version 2.6.22.1-8
([email protected]) (gcc version 4.2.0) #1 SMP Wed Jul 18
11:18:32 EDT 2007 Aug 4 13:50:15 holmes86 kernel: BIOS-provided physical RAM
map: Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000000000 -
000000000009f000 (usable) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000000009f000
- 00000000000a0000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820:
0000000000100000 - 000000001f7d3800 (usable) Aug 4 13:50:15 holmes86 kernel:
BIOS-e820: 000000001f7d3800 - 0000000020000000 (reserved) Aug 4 13:50:15
holmes86 kernel: BIOS-e820: 00000000e0000000 - 00000000f0007000 (reserved) Aug
4 13:50:15 holmes86 kernel: BIOS-e820: 00000000f0008000 - 00000000f000c000
(reserved)
從上面的信息可以看出,查看 /proc/8663/fd/2
就可以得到所要恢復的數據。如果可以通過文件描述符查看相應的數據,那麽就可以使用 I/O 重定向將其復制到文件中,如:
# cat /proc/1283/fd/2
> /var/log/messages
對於許多應用程序,尤其是日誌文件和數據庫,這種恢復刪除文件的方法非常有用。
(3) 磁盤空間被占滿,文件已經刪除,但是空間未被釋放的問題
磁盤空間已滿,但是找不到占空間的文件。空間沒釋放 或者說 inode 用完,用以下命令查看
# df -Th
Filesystem Type Size Used Avail Use% Mounted on
/dev/mapper/vg_mysql120-lv_root ext4 50G 45G 1.8G 97% /
tmpfs tmpfs 32G 0 32G 0% /dev/shm
/dev/sda1 ext4 485M 32M 428M 7% /boot
/dev/mapper/vg_mysql120-lv_home ext4 468G 78G 367G 18% /home
# df -i
Filesystem Inodes IUsed IFree IUse% Mounted on
/dev/mapper/vg_mysql120-lv_root 3276800 32722 3244078 1% /
tmpfs 8224606 1 8224605 1% /dev/shm
/dev/sda1 128016 38 127978 1% /boot
/dev/mapper/vg_mysql120-lv_home 31129600 19867 31109733 1% /home
註:在生產環境常見的問題就是,有維護人員或者開發同事使用tail命令實時查看日誌。然後另外的人使用rm命令刪除,這有就好導致磁盤空間不會真正的釋放,因為你要刪除的文件,還有進程在使用,文件句柄沒有釋放,即tail
文件句柄以及空間釋放問題
# lsof |grep deleted --查看
如果你知道文件名,那就可以直接使用如下命令
# lsof |grep testfile
但是如果你不知道是哪個文件,或者是很多文件都有這樣的情況,那你需要使用如下命令
註:這個deleted表示該已經刪除了的文件,但是文件句柄未釋放,這個命令會把所有的未釋放文件句柄的進程列出來
遇到這類問題,重啟被刪除文件的服務即可。
(4) 實用命令
lsof `which httpd` --那個進程在使用apache的可執行文件
lsof /etc/passwd --那個進程在占用/etc/passwd
lsof /dev/cdrom --那個進程在占用光驅
lsof -p 30297 --顯示那些文件被pid為30297的進程打開
lsof -u1000 --查看uid是100的用戶的進程的文件使用情況
lsof -utony --查看用戶tony的進程的文件使用情況
lsof -u^tony --查看不是用戶tony的進程的文件使用情況(^是取反的意思)
lsof -i --顯示所有打開的端口
lsof -i:80 --顯示所有打開80端口的進程
使用-i顯示所有連接
有些人喜歡用netstat來獲取網絡連接,但是我更喜歡使用lsof來進行此項工作。結果以對我來說很直觀的方式呈現,我僅僅只需改變我的語法,就可以通過同樣的命令來獲取更多信息。
# lsof -i
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
dhcpcd 6061 root 4u IPv4 4510 UDP *:bootpc
sshd 7703 root 3u IPv6 6499 TCP *:ssh (LISTEN)
sshd 7892 root 3u IPv6 6757 TCP 10.10.1.5:ssh->192.168.1.5:49901 (ESTABLISHED)
使用-i 6僅獲取IPv6流量
# lsof -i 6
僅顯示TCP連接(同理可獲得UDP連接)
你也可以通過在-i後提供對應的協議來僅僅顯示TCP或者UDP連接信息。
# lsof -iTCP
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
sshd 7703 root 3u IPv6 6499 TCP *:ssh (LISTEN)
sshd 7892 root 3u IPv6 6757 TCP 10.10.1.5:ssh->192.168.1.5:49901 (ESTABLISHED)
使用-i:port來顯示與指定端口相關的網絡信息
或者,你也可以通過端口搜索,這對於要找出什麽阻止了另外一個應用綁定到指定端口實在是太棒了。
# lsof -i:22
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
sshd 7703 root 3u IPv6 6499 TCP *:ssh (LISTEN)
sshd 7892 root 3u IPv6 6757 TCP 10.10.1.5:ssh->192.168.1.5:49901 (ESTABLISHED)
找出監聽端口
找出正等候連接的端口。
# lsof -i -sTCP:LISTEN
你也可以grep “LISTEN”來完成該任務。
# lsof -i | grep -i LISTEN
iTunes 400 daniel 16u IPv4 0x4575228 0t0 TCP *:daap (LISTEN)
找出已建立的連接
你也可以顯示任何已經連接的連接。
# lsof -i -sTCP:ESTABLISHED
你也可以通過grep搜索“ESTABLISHED”來完成該任務。
# lsof -i | grep -i ESTABLISHED
firefox-b 169 daniel 49u IPv4 0t0 TCP 1.2.3.3:1863->1.2.3.4:http (ESTABLISHED)
linux 磁盤空間被占滿但找不到目標文件的問題處理 lsof命令