1. 程式人生 > >如何優雅的使用 Python 實現檔案遞迴遍歷!

如何優雅的使用 Python 實現檔案遞迴遍歷!

今天有個指令碼需要遍歷獲取某指定資料夾下面的所有檔案,我記得很早前也實現過檔案遍歷和目錄遍歷的功能,於是找來看一看,嘿,不看不知道,看了嚇一跳,原來之前我竟然用了這麼搓的實現。

先發出來看看:

def getallfiles(dir):
"""遍歷獲取指定資料夾下面所有檔案""" 
 if os.path.isdir(dir):
 filelist = os.listdir(dir)
 for ret in filelist:
 filename = dir + "\" + ret
 if os.path.isfile(filename):
 print filename
 
def getalldirfiles(dir, basedir):
"""遍歷獲取所有子資料夾下面所有檔案""" 
 if os.path.isdir(dir):
 muiop[]
sdrtyuiop[]
 getallfiles(dir)
 dirlist = os.listdir(dir)
 for dirret in dirlist:
 fullname = dir + "\" + dirret
 if os.path.isdir(fullname):
 getalldirfiles(fullname, basedir)

我是用了 2 個函式,並且每個函式都用了一次 listdir,只是一次用來過濾檔案,一次用來過濾資料夾,如果只是從功能實現上看,一點問題沒有,但是這…太不優雅了吧。

開始著手優化,方案一:

def getallfiles(dir):
"""使用listdir迴圈遍歷""" 
 if not os.path.isdir(dir):
 print dir
 return 
 dirlist = os.listdir(dir)
 for dirret in dirlist:
 fullname = dir + "\" + dirret
 if os.path.isdir(fullname):
 getallfiles(fullname)
 else:
 print fullname

從上圖可以看到,我把兩個函式合併成了一個,只調用了一次 listdir,把檔案和資料夾用 if else 進行了分支處理,當然,自我呼叫的迴圈還是存在。

有木有更好的方式呢?網上一搜一大把,原來有一個現成的 os.walk() 函式可以用來處理檔案(夾)的遍歷,這樣優化下就更簡單了。

方案二:

def getallfilesofwalk(dir):
"""使用listdir迴圈遍歷""" 
 if not os.path.isdir(dir):
 print dir
 return 
 dirlist = os.walk(dir)
 for root, dirs, files in dirlist:
 for file in files:
 print os.path.join(root, file)

只是從程式碼實現上看,方案二是最優雅簡潔的了,但是再翻看 os.walk() 實現的原始碼就會發現,其實它內部還是呼叫的 listdir 完成具體的功能實現,只是它對輸出結果做了下額外的處理而已。

附上os.walk()的原始碼:

from os.path import join, isdir, islink
# We may not have read permission for top, in which case we can't
# get a list of the files the directory contains. os.path.walk
# always suppressed the exception then, rather than blow up for a
# minor reason when (say) a thousand readable directories are still
# left to visit. That logic is copied here.
try:
 # Note that listdir and error are globals in this module due 
 # to earlier import-*. 
 names = listdir(top)
except error, err:
 if onerror is not None:
 onerror(err)
 return
 
dirs, nondirs = [], []
for name in names:
 if isdir(join(top, name)):
 dirs.append(name)
 else:
 nondirs.append(name)
 
if topdown:
 yield top, dirs, nondirs
for name in dirs:
 path = join(top, name)
 if followlinks or not islink(path):
 for x in walk(path, topdown, onerror, followlinks):
 yield x
if not topdown:
 yield top, dirs, nondirs

至於 listdir 和 walk 在輸出時的不同點,主要就是listdir 預設是按照檔案和資料夾存放的字母順序進行輸出,而 walk 則是先輸出頂級資料夾,然後是頂級檔案,再輸出第二級資料夾,以及第二級檔案,以此類推,具體大家可以把上面指令碼拷貝後自行驗證。

結語:

跟大家推薦一個學習資料分享群: 960410445 ,裡面大牛已經為我們整理好了許多的學習資料,有自動化,介面,效能