1. 程式人生 > >python檔案讀寫指南(二)

python檔案讀寫指南(二)

我們知道當檔案不存在的時候,open()方法的寫模式與追加模式都會新建檔案,但是對檔案進行判斷的場景還有很多,比如,在爬蟲下載圖片的時候,可能需要判斷檔案是否存在,以免重複下載;又比如,建立新檔案的時候,可能需要判斷檔案是否存在,存在就先做個備份......所以,學習判斷檔案是否存在,還是很有必要的。

學習是循序漸進的過程,若能建立知識點間的聯絡,進行系統性的學習,那將更有助於效果。閱讀這篇文章,你將讀到如下內容:

1、判斷檔案的方法(try語句、os模組、pathlib模組)2、以上幾種方法的優劣對比

懶人的try語句

我們之前學過,要用with語句來處理檔案讀寫,但with語句也不是萬能的,所以還得關注一些異常情況。例如,當使用open()方法的時候,如果檔案不存在,程式會丟擲FileNotFoundError異常,而如果許可權不足的話,就會丟擲PersmissionError異常。

 with open("python.log", "r") as f:
      ...:     f.read()
  -----------------------
  ...(略)
  FileNotFoundError: [Errno 2] No such file or directory: 'python.log'

為了避免這些異常導致程式中斷,我們可以用try...except...語句來捕捉異常,然後在except子句進行異常的處理。

不過,在貓貓看來,這個方法不值得推薦。原因有二,一是這種方法很被動,程式的健康受制於不可預測的異常;二是當檔案不存在的時候,我們可能需要去建立檔案,這些邏輯如果寫在except子句裡,可讀性太差了。

傳統的os模組

顧名思義,Python內建的os模組是用來與OS(作業系統)進行互動的模組,它可以實現很多在命令列下做的操作,例如,獲取作業系統資訊、獲取/修改環境變數、進行目錄操作(建立、刪除、遍歷)和各種檔案操作等等。

下面,我們要學習的是跟檔案判斷密切相關的幾個方法。

1、os.path.exists()用於判斷檔案及資料夾是否存在(注意:因為兩者都能判斷,為了有效區分檔案和資料夾,最好保證檔案是帶字尾的。):

import os
  # 檔案存在 VS 不存在
  os.path.exists("test.txt") >>>True
  os.path.exists("cat.txt") >>>False
  # 資料夾存在 VS 不存在
  os.path.exists("cat/images") >>>True
  os.path.exists("cat/image") >>>False

2、os.path.isfile()、os.path.isdir() 判斷給定路徑是檔案還是資料夾:

os.path.isfile("cat/images") >>>False
os.path.isdir("cat/images") >>>True
os.path.isfile("test.txt") >>>True

3、os.access()檢測檔案路徑的訪問許可權,語法:os.access(path, mode);其中path指的是檔案或者資料夾,mode指的是要檢測的模式:

os.access("cat/images", os.F_OK) >>>True # path存在
os.access("cat/images", os.R_OK) >>>True # path可讀
os.access("cat/images", os.W_OK) >>>True # path可寫
os.access("cat/images", os.X_OK) >>>True # path可執行

4、os模組中其它常用方法:

os.mkdir()建立目錄、os.rmdir()刪除目錄、os.rename()重新命名、os.remove()刪除檔案、os.path.join()連線目錄與檔名、os.path.split()分割目錄與檔名......(不一一舉例了,今後有機會再作介紹)

時尚的pathlib模組

pathlib模組是python3.4才加入的模組,官方介紹它是面向物件的檔案系統路徑(Object-oriented filesystem paths),這是一個很強大的模組,文末附錄了官方文件地址。

這裡主要介紹幾個基本的用法:

import pathlib
file_obj = pathlib.Path("test.txt")
  
file_obj.name >>>'test.txt' # 檔名
file_obj.exists() >>> True # 是否存在
file_obj.is_dir() >>>False # 是否資料夾
file_obj.is_file() >>>True # 是否檔案

幾種方法優劣對比

圍繞檔案操作的知識很多,限於篇幅,本文主要對判斷檔案作了介紹,今後也許還會對其它具體話題進行學習。

現在知道了幾種判斷檔案是否存在的方法,貓貓試著根據自己的理解,對它們做一下評判。

首先,try語句的缺點是沒有主動做判斷,不方便根據檔案是否存在而做針對性的處理,它把必要的邏輯交給異常捕獲,多少顯得“不負責任”;try語句也有優點,一是不需要引入模組,不需要區分各種使用方法,二是將其它可能存在的異常都打包,避免多樣系統或使用場景的遺漏。

os模組是傳統的老模組了,在使用上和維護上都會比較順暢;它的主要缺點在於有的方法比較繁瑣,由於使用字串來表示檔案路徑,這會導致路徑拼接上的麻煩,另外,不同作業系統在路徑分隔符上的差異(Windows使用\分隔符,Linux和Mac使用/分隔符),也可能導致難以發現的錯誤。

相對來說,pathlib功能最強大,但普及度比較低,有一定的學習門檻;它主要的優點是面向物件,同時,因為對不同作業系統的特性做了封裝,能有效避免字串表示檔案路徑的難題。它的不足之處是沒有像os.access()可以檢測訪問許可權的方法,雖然這個方法基本不會使用到。

下面比較了三種拼接檔案路徑的方法,方法一未對分隔符做處理,不能保證在每個作業系統都能找到;方法二需要反覆使用os.path.join;方法三隻用“/"就能拼接路徑,而且肯定支援多作業系統。

  
  # 錯誤拼接:未處理分隔符

  data_folder = "source_data/text_files/"
  file_to_open = data_folder + "test.txt"
 
  # os模組拼接

  import os
  data_folder = os.path.join("source_data", "text_files")
  file_to_open = os.path.join(data_folder, "test.txt")
  
  # pathlib模組拼接
  from pathlib import Path
  data_folder = Path("source_data/text_files/")
  file_to_open = data_folder / "test.txt"

總結一下,如果檔案路徑簡單,僅僅要用到exists()、is_dir()、is_file() 這幾個方法的話,os.path模組和pathlib.Path模組不分伯仲,都很好用,但是如果考慮到繁複的路徑拼接的話,pathlib.Path就會勝出一籌。