1. 程式人生 > >深度解析Linux根檔案系統的掛載過程

深度解析Linux根檔案系統的掛載過程

在前面的文章中介紹《Linux作業系統啟動過程》,而Linux系統的根檔案系統(root file system)的掛載過程則是其中一個重要環節,下面這部分內容來自於網路,經整理分享如下,希望能給這部份知識點比較迷茫的朋友一點幫助。

一、rootfs的種類

總的來說,rootfs分為兩種:虛擬rootfs真實rootfs。現在kernel的發展趨勢是將更多的功能放到使用者空間完成。以保持核心的精簡。虛擬rootfs也是各linux發行廠商普遍採用的一種方式。可以將一部份的初始化工作放在虛擬的rootfs裡完成。然後切換到真實的檔案系統。
在虛擬rootfs的發展過程中。又有以下幾個版本:

  • initramfs: Initramfs是在 kernel 2.5中引入的技術,實際上它的含義就是:在核心映象中附加一個cpio包,這個cpio包中包含了一個小型的檔案系統,當核心啟動時,核心將這個cpio包解開,並且將其中包含的檔案系統釋放到rootfs中,核心中的一部分初始化程式碼會放到這個檔案系統中,作為使用者層程序來執行。這樣帶來的明顯的好處是精簡了核心的初始化程式碼,而且使得核心的初始化過程更容易定製。這種這種方式的rootfs是包含在kernel image之中的。
  • cpio-initrd: cpio格式的rootfs
  • image-initrd: 傳統格式的rootfs
二、rootfs檔案系統的掛載過程

這裡說的rootfs不同於上面分析的rootfs。這裡指的是系統初始化時的根結點。即/結點。它是其於記憶體的rootfs檔案系統。這部份之前在>和檔案系統中已經分析過。為了知識的連貫性這裡再重複一次。

[code lang=”c”]
Start_kernel()àmnt_init():
void __init mnt_init(void)
{
……
……
init_rootfs();
init_mount_tree();
}[/code]

Init_rootfs的程式碼如下:

[code lang=”c”]
int __init init_rootfs(void)
{
int err;

err = bdi_init(&ramfs_backing_dev_info);
if (err)
return err;

err = register_filesystem(&rootfs_fs_type);
if (err)
bdi_destroy(&ramfs_backing_dev_info);

return err;
}[/code]

這個函式很簡單,就是註冊了rootfs的檔案系統。
init_mount_tree()程式碼如下:

[code lang=”c”]static void __init init_mount_tree(void)
{
struct vfsmount *mnt;
struct mnt_namespace *ns;
struct path root;

mnt = do_kern_mount("rootfs", 0, "rootfs", NULL);
if (IS_ERR(mnt))
panic("Can’t create rootfs");
ns = kmalloc(sizeof(*ns), GFP_KERNEL);
if (!ns)
panic("Can’t allocate initial namespace");
atomic_set(&ns->count, 1);
INIT_LIST_HEAD(&ns->list);
init_waitqueue_head(&ns->poll);
ns->event = 0;
list_add(&mnt->mnt_list, &ns->list);
ns->root = mnt;
mnt->mnt_ns = ns;

init_task.nsproxy->mnt_ns = ns;
get_mnt_ns(ns);

root.mnt = ns->root;
root.dentry = ns->root->mnt_root;

set_fs_pwd(current->fs, &root);
set_fs_root(current->fs, &root);
}[/code]

在這裡,將rootfs檔案系統掛載。它的掛載點預設為”/”.最後切換程序的根目錄和當前目錄為”/”.這也就是根目錄的由來。不過這裡只是初始化。等掛載完具體的檔案系統之後,一般都會將根目錄切換到具體的檔案系統。所以在系統啟動之後,用mount命令是看不到rootfs的掛載資訊的.

三、虛擬檔案系統的掛載

根目錄已經掛上去了,可以掛載具體的檔案系統了.
在start_kernel()àrest_init()àkernel_init():

[code lang=”c”]static int __init kernel_init(void * unused)
{
……
……
do_basic_setup();
if (!ramdisk_execute_command)
ramdisk_execute_command = "/init";

if (sys_access((const char __user *) ramdisk_execute_command, 0) != 0) {
ramdisk_execute_command = NULL;
prepare_namespace();
}

/*
* Ok, we have completed the initial bootup, and
* we’re essentially up and running. Get rid of the
* initmem segments and start the user-mode stuff..
*/
init_post();
return 0;
}[/code]

do_basic_setup()是一個很關鍵的函式,所有直接編譯在kernel中的模組都是由它啟動的。程式碼片段如下:

[code lang=”c”]static void __init do_basic_setup(void)
{
/* drivers will send hotplug events */
init_workqueues();
usermodehelper_init();
driver_init();
init_irq_proc();
do_initcalls();
}[/code]

Do_initcalls()用來啟動所有在__initcall_start和__initcall_end段的函式,而靜態編譯進核心的modules也會將其入口放置在這段區間裡。
跟根檔案系統相關的初始化函式都會由rootfs_initcall()所引用。注意到有以下初始化函式:

[code lang=”c”]rootfs_initcall(populate_rootfs);[/code]

也就是說會在系統初始化的時候會呼叫populate_rootfs進行初始化。程式碼如下:

[code lang=”c”]static int __init populate_rootfs(void)
{
char *err = unpack_to_rootfs(__initramfs_start,
__initramfs_end – __initramfs_start, 0);
if (err)
panic(err);
if (initrd_start) {
#ifdef CONFIG_BLK_DEV_RAM
int fd;
printk(KERN_INFO "checking if image is initramfs…");
err = unpack_to_rootfs((char *)initrd_start,
initrd_end – initrd_start, 1);
if (!err) {
printk(" it is\n");
unpack_to_rootfs((char *)initrd_start,
initrd_end – initrd_start, 0);
free_initrd();
return 0;
}
printk("it isn’t (%s); looks like an initrd\n", err);
fd = sys_open("/initrd.image", O_WRONLY|O_CREAT, 0700);
if (fd >= 0) {
sys_write(fd, (char *)initrd_start,
initrd_end – initrd_start);
sys_close(fd);
free_initrd();
}
#else
printk(KERN_INFO "Unpacking initramfs…");
err = unpack_to_rootfs((char *)initrd_start,
initrd_end – initrd_start, 0);
if (err)
panic(err);
printk(" done\n");
free_initrd();
#endif
}
return 0;
}[/code]

unpack_to_rootfs:顧名思義就是解壓包,並將其釋放至rootfs。它實際上有兩個功能,一個是釋放包,一個是檢視包,看其是否屬於cpio結構的包。功能選擇是根據最後的一個引數來區分的.
在這個函式裡,對應我們之前分析的三種虛擬根檔案系統的情況。一種是跟kernel融為一體的initramfs.在編譯kernel的時候,通過連結指令碼將其存放在__initramfs_start至__initramfs_end的區域。這種情況下,直接呼叫unpack_to_rootfs將其釋放到根目錄.如果不是屬於這種形式的。也就是__initramfs_start和__initramfs_end的值相等,長度為零。不會做任何處理。退出.

對應後兩種情況。從程式碼中看到,必須要配製CONFIG_BLK_DEV_RAM才會支援image-initrd。否則全當成cpio-initrd的形式處理。
對於是cpio-initrd的情況。直接將其釋放到根目錄。對於是image-initrd的情況。將其釋放到/initrd.image.最後將initrd記憶體區域歸入夥伴系統。這段記憶體就可以由作業系統來做其它的用途了。
接下來,核心對這幾種情況又是怎麼處理的呢?不要著急。往下看:

回到kernel_init()這個函式:

[code lang=”c”]static int __init kernel_init(void * unused)
{
…….
…….
do_basic_setup();

/*
* check if there is an early userspace init. If yes, let it do all
* the work
*/

if (!ramdisk_execute_command)
ramdisk_execute_command = "/init";

if (sys_access((const char __user *) ramdisk_execute_command, 0) != 0) {
ramdisk_execute_command = NULL;
prepare_namespace();
}

/*
* Ok, we have completed the initial bootup, and
* we’re essentially up and running. Get rid of the
* initmem segments and start the user-mode stuff..
*/
init_post();
return 0;
}[/code]

ramdisk_execute_command:在kernel解析引導引數的時候使用。如果使用者指定了init檔案路徑,即使用了“init=”,就會將這個引數值存放到這裡。
如果沒有指定init檔案路徑。預設為/init
對應於前面一段的分析,我們知道,對於initramdisk和cpio-initrd的情況,都會將虛擬根檔案系統釋放到根目錄。如果這些虛擬檔案系統裡有/init這個檔案。就會轉入到init_post()。
Init_post()程式碼如下:

[code lang=”c”]static int noinline init_post(void)
{
free_initmem();
unlock_kernel();
mark_rodata_ro();
system_state = SYSTEM_RUNNING;
numa_default_policy();

if (sys_open((const char __user *) "/dev/console", O_RDWR, 0)
(void) sys_dup(0);
(void) sys_dup(0);

if (ramdisk_execute_command) {
run_init_process(ramdisk_execute_command);
printk(KERN_WARNING "Failed to execute %s\n",
ramdisk_execute_command);
}

/*
* We try each of these until one succeeds.
*
* The Bourne shell can be used instead of init if we are
* trying to recover a really broken machine.
*/
if (execute_command) {
run_init_process(execute_command);
printk(KERN_WARNING "Failed to execute %s. Attempting "
"defaults…\n", execute_command);
}
run_init_process("/sbin/init");
run_init_process("/etc/init");
run_init_process("/bin/init");
run_init_process("/bin/sh");

panic("No init found. Try passing init= option to kernel.");
}[/code]

從程式碼中可以看中,會依次執行指定的init檔案,如果失敗,就會執行/sbin/init, /etc/init, /bin/init, /bin/sh
注意的是,run_init_process在呼叫相應程式執行的時候,用的是kernel_execve。也就是說呼叫程序會替換當前程序。只要上述任意一個檔案呼叫成功,就不會返回到這個函式。如果上面幾個檔案都無法執行。打印出沒有找到init檔案的錯誤。
對於image-hdr或者是虛擬檔案系統中沒有包含 /init的情況,會由prepare_namespace()處理。程式碼如下:

[code lang=”c”]void __init prepare_namespace(void)
{
int is_floppy;

if (root_delay) {
printk(KERN_INFO "Waiting %dsec before mounting root device…\n",
root_delay);
ssleep(root_delay);
}

/* wait for the known devices to complete their probing */
while (driver_probe_done() != 0)
msleep(100);

//mtd的處理
md_run_setup();

if (saved_root_name[0]) {
root_device_name = saved_root_name;
if (!strncmp(root_device_name, "mtd", 3)) {
mount_block_root(root_device_name, root_mountflags);
goto out;
}
ROOT_DEV = name_to_dev_t(root_device_name);
if (strncmp(root_device_name, "/dev/", 5) == 0)
root_device_name += 5;
}

if (initrd_load())
goto out;

/* wait for any asynchronous scanning to complete */
if ((ROOT_DEV == 0) && root_wait) {
printk(KERN_INFO "Waiting for root device %s…\n",
saved_root_name);
while (driver_probe_done() != 0 ||
(ROOT_DEV = name_to_dev_t(saved_root_name)) == 0)
msleep(100);
}

is_floppy = MAJOR(ROOT_DEV) == FLOPPY_MAJOR;

if (is_floppy && rd_doload && rd_load_disk(0))
ROOT_DEV = Root_RAM0;

mount_root();
out:
sys_mount(".", "/", NULL, MS_MOVE, NULL);
sys_chroot(".");
}[/code]

這裡有幾個比較有意思的處理,首先使用者可以用root=來指定根檔案系統。它的值儲存在saved_root_name中。如果使用者指定了以mtd開始的字串做為它的根檔案系統。就會直接去掛載。這個檔案是mtdblock的裝置檔案。
否則將裝置結點檔案轉換為ROOT_DEV即裝置節點號
然後,轉向initrd_load()執行initrd預處理後,再將具體的根檔案系統掛載。
注意到,在這個函式末尾。會呼叫sys_mount()來移動當前檔案系統掛載點到”/”目錄下。然後將根目錄切換到當前目錄。這樣,根檔案系統的掛載點就成為了我們在使用者空間所看到的”/”了.
對於其它根檔案系統的情況,會先經過initrd的處理。即

[code lang=”c”]int __init initrd_load(void)
{
if (mount_initrd) {
create_dev("/dev/ram", Root_RAM0);
/*
* Load the initrd data into /dev/ram0. Execute it as initrd
* unless /dev/ram0 is supposed to be our actual root device,
* in that case the ram disk is just set up here, and gets
* mounted in the normal path.
*/
if (rd_load_image("/initrd.image") && ROOT_DEV != Root_RAM0) {
sys_unlink("/initrd.image");
handle_initrd();
return 1;
}
}
sys_unlink("/initrd.image");
return 0;
}[/code]

建立一個ROOT_RAM)的裝置節點,並將/initrd/.image釋放到這個節點中,/initrd.image的內容,就是我們之前分析的image-initrd。
如果根檔案裝置號不是ROOT_RAM0( 使用者指定的根檔案系統不是/dev/ram0就會轉入到handle_initrd()
如果當前根檔案系統是/dev/ram0.將其直接掛載就好了。

handle_initrd()程式碼如下:

[code lang=”c”]static void __init handle_initrd(void)
{
int error;
int pid;

real_root_dev = new_encode_dev(ROOT_DEV);
create_dev("/dev/root.old", Root_RAM0);
/* mount initrd on rootfs’ /root */
mount_block_root("/dev/root.old", root_mountflags & ~MS_RDONLY);
sys_mkdir("/old", 0700);
root_fd = sys_open("/", 0, 0);
old_fd = sys_open("/old", 0, 0);
/* move initrd over / and chdir/chroot in initrd root */
sys_chdir("/root");
sys_mount(".", "/", NULL, MS_MOVE, NULL);
sys_chroot(".");

/*
* In case that a resume from disk is carried out by linuxrc or one of
* its children, we need to tell the freezer not to wait for us.
*/
current->flags |= PF_FREEZER_SKIP;

pid = kernel_thread(do_linuxrc, "/linuxrc", SIGCHLD);
if (pid > 0)
while (pid != sys_wait4(-1, NULL, 0, NULL))
yield();

current->flags &= ~PF_FREEZER_SKIP;

/* move initrd to rootfs’ /old */
sys_fchdir(old_fd);
sys_mount("/", ".", NULL, MS_MOVE, NULL);
/* switch root and cwd back to / of rootfs */
sys_fchdir(root_fd);
sys_chroot(".");
sys_close(old_fd);
sys_close(root_fd);

if (new_decode_dev(real_root_dev) == Root_RAM0) {
sys_chdir("/old");
return;
}

ROOT_DEV = new_decode_dev(real_root_dev);
mount_root();

printk(KERN_NOTICE "Trying to move old root to /initrd … ");
error = sys_mount("/old", "/root/initrd", NULL, MS_MOVE, NULL);
if (!error)
printk("okay\n");
else {
int fd = sys_open("/dev/root.old", O_RDWR, 0);
if (error == -ENOENT)
printk("/initrd does not exist. Ignored.\n");
else
printk("failed\n");
printk(KERN_NOTICE "Unmounting old root\n");
sys_umount("/old", MNT_DETACH);
printk(KERN_NOTICE "Trying to free ramdisk memory … ");
if (fd
error = fd;
} else {
error = sys_ioctl(fd, BLKFLSBUF, 0);
sys_close(fd);
}
printk(!error ? "okay\n" : "failed\n");
}
}[/code]

先將/dev/ram0掛載,而後執行/linuxrc.等其執行完後。切換根目錄,再掛載具體的根檔案系統.
到這裡。檔案系統掛載的全部內容就分析完了.

四、小結

在本小節裡。分析了根檔案系統的掛載流程。並對幾個虛擬根檔案系統的情況做了詳細的分析。理解這部份,對我們構建linux嵌入式開發系統是很有幫助的.

五、參考資料

IBM技術論壇的附根檔案系統掛載流程圖: