基礎IO學習筆記(open等系統呼叫、inode、檔案理解)
一.系統呼叫介面open、close、write、read
1.open
引數解析:
- pathname:要開啟或要建立的目標檔案
- flags:下面的一個或多個常量進行"或"運算
O_RDONLY 只讀
O_WRONLY 只寫
O_RDWR 讀寫開啟
O_CRWAT 檔案不存在建立它
O_APPEND 追加寫
- 返回值:成功返回新開啟的檔案描述符,失敗返回-1
2.close
引數說明:
- fd為要關閉檔案的檔案描述符
返回值: 關閉成功返回0,關閉失敗返回-1
3.read
使用:
int main()
{
int fd = open("myfile", O_RDONLY) ;
if (fd<0){
perror("use open");
exit(1);
}
char buf[1024];
const char *msg = "hello\n";
while (1){
ssize_t s = read(fd, buf, strlen(msg));
if (s>0){
buf[s] = 0;
printf("%s", buf);
}
else{
break;
}
}
close(fd);
return 0;
}
4.write
使用:
int main()
{
int fd = open("myfile" , O_WRONLY | O_CREAT, 0664);
if (fd <= 0){
perror("use open");
exit(1);
}
const char* msg = "hello,xikeda\n";
int count = 5;
while (count--){
write(fd, msg, strlen(msg));
}
close(fd);
return 0;
}
二.檔案描述符
open函式的返回值就是檔案描述符,檔案描述符就是一個小的整數
1.預設開啟的檔案描述符
- Linux系統預設會有3個預設開啟的檔案描述符,分別是
標準輸入0
標準輸出1
、標準錯誤2
。 - 0、1、2分別對應的物理裝置是:鍵盤、顯示器、顯示器、
2.檔案描述符實質(file_struct)
當我們開啟檔案時,作業系統在記憶體中要建立相應的資料結構來描述目標檔案,file_struct就是這個資料結構,程序執行open系統呼叫,必須讓程序和檔案關聯起來。每個程序都有一個file*指標,指向一張表file_struct,該表包括一個指標陣列,每個元素都是一個指向開啟檔案的指標。本質上,檔案描述符就是該陣列的下標
3.檔案描述符分配規則
在file_struct陣列中,找到當前沒有被使用的最小的一個下標,作為新的檔案描述符
4.重定向本質
- a.輸出重定向
>
- b.輸入重定向
<
- c.追加重定向
>>
把本來要輸出到顯示屏的訊息輸出到檔案
我們可以把1號描述符對於的檔案(標準輸出)關了,在開啟一個檔案,分配的檔案描述符必然是1,這樣就可以達到把本來要輸到顯示屏的訊息列印到檔案中
三.FILE
- 因為IO相關函式與系統呼叫介面對應,並且庫函式封裝系統呼叫。所以,本質上,訪問檔案是通過
fd訪問
的 - 所以c庫當中的
FILE結構體內部,必定封裝了fd
。 printf和fwrintf庫函式自帶緩衝區
,write系統呼叫介面沒有緩衝區
,說明緩衝區是C庫提供的
緩衝區分為三種:
- a.無緩衝
- b.行緩衝(按行重新整理)
- c.全緩衝(緩衝區寫滿才重新整理)
顯示器一般是行緩衝,而普通檔案是全緩衝
四.inode(理解檔案系統)
1.什麼是inode?
inode是一個重要概念,是理解Unix/Linux檔案系統和硬碟儲存的基礎。理解inode,要從檔案儲存說起。檔案儲存在硬碟上,硬碟的最小儲存單位叫做”扇區”(Sector)
。每個扇區儲存512位元組(相當於0.5KB
。作業系統讀取硬碟的時候,不會一個個扇區地讀取,這樣效率太低,而是一次性連續讀取多個扇區,即一次性讀取一個”塊”(block
)。這種由多個扇區組成的”塊”,是檔案存取的最小單位。”塊”的大小,最常見的是4KB
,即連續八個 sector組成一個 block
。檔案資料都儲存在”塊”中,那麼很顯然,我們還必須找到一個地方儲存檔案的源資訊,比如檔案的建立者、檔案的建立日期、檔案的大小
等等。這種儲存檔案源資訊的區域就叫做inode
,中文譯名為”索引節點”
。每一個檔案都有對應的inode
,裡面包含了與該檔案有關的一些資訊
。
2.inode的內容
-
檔案的
位元組數
-
檔案擁有者的
User ID
-
檔案的
Group ID
-
檔案的
讀、寫、執行
許可權 -
檔案的時間戳,共有三個:
ctime
指inode上一次變動
的時間,mtime
指檔案內容上一次變動
的時間,atime
指檔案上一次開啟
的時間。 -
連結數,即有
多少檔名指向這個inode
-
檔案資料
block的位置
我們可以用stat
命令檢視這些資訊: -
Access:最後訪問時間
-
Modify:檔案內容最後修改時間
-
Change:檔案屬性最後修改時間
除了檔名以外的所有檔案資訊,都存在inode之中
3.inode的大小
inode也會消耗硬碟空間,所以硬碟格式化的時候,作業系統自動將硬碟分成兩個區域。一個是資料區,存放檔案資料;另一個是inode區(inode table),存放inode所包含的資訊。
每個inode節點的大小,一般是128位元組或256位元組
。inode節點的總數,在格式化時就給定,一般是每1KB或每2KB就設定一個inode。假定在一塊1GB的硬碟中,每個inode節點的大小為128位元組,每1KB就設定一個inode,那麼inode table的大小就會達到128MB,佔整塊硬碟的12.8%。
檢視每個硬碟分割槽的inode總數和已經使用的數量,可以使用df命令。
檢視每個inode節點的大小,可以用如下命令:
sudo dumpe2fs -h /dev/hda | grep “Inode size”
由於每個檔案都必須有一個inode,因此有可能發生inode已經用光,但是硬碟還未存滿的情況。這時,就無法在硬碟上建立新檔案。
4.inode號碼
每個inode都有一個號碼,作業系統用inode號碼來識別不同的檔案
。這裡值得重複一遍,Unix/Linux系統內部不使用檔名,而使用inode號碼來識別檔案。對於系統來說,檔名只是inode號碼便於識別的別稱或者綽號。表面上,使用者通過檔名,開啟檔案。實際上,系統內部這個過程分成三步:首先,系統找到這個檔名對應的inode號碼;其次,通過inode號碼,獲取inode資訊;最後,根據inode資訊,找到檔案資料所在的block,讀出資料
。使用ls -i
命令,可以看到檔名對應的inode
號碼:
5.目錄檔案
Unix/Linux系統
中,目錄(directory)也是一種檔案
。開啟目錄
,實際上就是開啟目錄檔案
。目錄檔案的結構非常簡單,就是一系列目錄項(dirent)的列表
。每個目錄項,由兩部分組成:所包含檔案的檔名,以及該檔名對應的inode號碼
。
目錄檔案
的讀許可權(r)和寫許可權(w)
,都是針對目錄檔案本身。由於目錄檔案內只有檔名和inode號碼
,所以如果只有讀許可權,只能獲取檔名,無法獲取其他資訊,因為其他資訊都儲存在inode節點中,而讀取inode節點內的資訊需要目錄檔案的執行許可權(x)。
6.軟硬連結
a.硬連線
一般情況下,檔名和inode號碼是”一一對應”關係
,每個inode號碼對應一個檔名。但是,Unix/Linux系統
允許,多個檔名指向同一個inode號碼
。這意味著,可以用不同的檔名訪問同樣的內容
;對檔案內容進行修改,會影響到所有檔名;但是,刪除一個檔名,不影響另一個檔名的訪問。這種情況就被稱為”硬連結”(hard link)。
建立硬連結: ln 原始檔 目標檔案
檔案和目錄的硬連結數
file1
和hard_link
檔案的連結狀態完全相同,它們被稱為指向檔案的硬連結,核心記錄了這個連結數,inode為2667318
的硬連結數為2
- 在刪除檔案的時候,,將
目錄中對於記錄刪除
,然後將硬連結數減1
,如果硬連結數減為0
,表明沒有檔名指向這個inode,系統就會回收這個inode號碼,以及其所對應block區域
。 - 目錄檔案的硬連結數:建立目錄時,預設會生成兩個目錄項:
”.”和”..”
。前者
的inode號碼就是當前目錄的inode號碼
,等同於當前目錄的”硬連結”;後者
的inode號碼就是當前目錄的父目錄的inode號碼
,等同於父目錄的”硬連結”。所以,任何一個目錄的”硬連結”總數
,總是等於2加上它的子目錄總數(含隱藏目錄)
。
b.軟連線
硬連結是通過inode引用另外一個檔案,軟連線是通過名字引用另外一個檔案。
檔案A和檔案B的inode號碼雖然不一樣,但是檔案A的內容是檔案B的路徑
。讀取檔案A
時,系統會自動將訪問者導向檔案B
。因此,無論開啟哪一個檔案,最終讀取的都是檔案B
。這時,檔案A就稱為檔案B的”軟連結”(soft link)
或者”符號連結(symbolic link)。這意味著,檔案A依賴於檔案B而存在,如果刪除了檔案B
,開啟檔案A就會報錯:”No such file or directory”
。這是軟連結與硬連結
最大的不同
:檔案A指向檔案B的檔名,而不是檔案B的inode號碼,檔案B的inode”連結數”不會因此發生變化。
建立軟連結:ln -s 原始檔或目錄 目標檔案或目錄
7.inode的特殊作用(軟體更新)
由於inode號碼與檔名分離
,這種機制導致了一些Unix/Linux系統特有的現象。
- 有時,
檔名包含特殊字元,無法正常刪除
。這時,直接刪除inode節點,就能起到刪除檔案的作用
。 - 移動檔案或重新命名檔案,只是改變檔名,不影響inode號碼。
- 開啟一個檔案以後,系統就以inode號碼來識別這個檔案,不再考慮檔名。因此,通常來說,系統無法從inode號碼得知檔名。
第3點使得軟體更新變得簡單,可以在不關閉軟體的情況下進行更新,不需要重啟。因為系統通過inode號碼,識別執行中的檔案,不通過檔名。更新的時候,新版檔案以同樣的檔名,生成一個新的inode,不會影響到執行中的檔案。等到下一次執行這個軟體的時候,檔名就自動指向新版檔案,舊版檔案的inode則被回收。
軟硬連結的區別:
- 有無獨立的
inode
。 - 硬連結是通過
inode
引用另外一個檔案,軟連線是通過名字
引用另外一個檔案。