Python generator和yield介紹
Python生成器(generator)並不是一個晦澀難懂的概念。相比於MetaClass和Closure等概念,其較為容易理解和掌握。但相對於程式結構:順序、迴圈和分支而言其又不是特別的直觀。無論學習任何的東西,概念都是非常重要的。正確樹立並掌握一些基礎的概念是靈活和合理運用的前提,本文將以一種通俗易懂的方式介紹一下generator和yield表示式。
1. Iterator與Iterable
首先明白兩點:
- Iterator(迭代器)是可迭代物件;
- 可迭代物件並不一定是Iterator;
比較常見的資料型別list、tuple、dict等都是可迭代的,屬於collections.Iterable型別;
迭代器不僅可迭代還可以被內建函式next呼叫,屬於collections.Iterator型別;
迭代器是特殊的可迭代物件,是可迭代物件的一個子集。
將要介紹的gererator(生成器)是types.GeneratorType型別,也是collections.Iterator型別。
也就是說生成器是迭代器,可被next呼叫,也可迭代。
三者的包含關係:(可迭代(迭代器(生成器)))
2. Python生成器
python有兩種型別的生成器:生成器表示式和生成器函式。
由於生成器可迭代並且是iterator,因此可以通過for和next進行遍歷。
2.1 生成器表示式
把列表生成式的[]改成()便得到生成器表示式。
>>> gen = (i + i for i in xrange(10)) >>> gen <generator object <genexpr> at 0x0000000003A2DAB0> >>> type(gen) <type 'generator'> >>> isinstance(gen, types.GeneratorType) and isinstance(gen, collections.Iterator) and isinstance(gen, collections.Iterable) True >>>
2.2 生成器函式
python函式定義中有關鍵字yield,該函式便是一個生成器函式,函式呼叫返回的是一個generator.
def yield_func(): for i in xrange(3): yield i gen_func = yield_func() for yield_val in gen_func: print yield_val
生成器函式每次執行到yield便會返回,但與普通函式不同的是yield返回時會保留當前函式的執行狀態,再次被呼叫時可以從中斷的地方繼續執行。
2.3 next與send
通過for和next可以遍歷生成器,而send則可以用於向生成器函式傳送訊息。
1 def yield_func(): 2for i in xrange(1, 3): 3x = yield i 4print 'yield_func',x 5 gen_func = yield_func() 6 print 'iter result: %d' % next(gen_func) 7 print 'iter result: %d' % gen_func.send(100)
結果:
iter result: 1 yield_func 100 iter result: 2
簡單分析一下執行過程:
- line_no 5 呼叫生成器函式yield_func得到函式生成器gen_func;
- line_no 6 使用next呼叫gen_func,此時才真正的開始執行yield_func定義的程式碼;
- line_no 3 執行到yield i,函式yield_func暫停執行並返回當前i的值1.
- line_no 6 next(gen_func)得到函式yield_func執行到yield i返回的值1,輸出結果iter result: 1;
- line_no 7 執行gen_func.send(100);
- line_no 3 函式yield_func繼續執行,並將呼叫者send的值100賦值給x;
- line_no 4 輸出呼叫者send接收到的值;
- line_no 3 執行到yield i,函式yield_func暫停執行並返回當前i的值2.
- line_no 7 執行gen_func.send(100)得到函式yield_func執行到yield i返回的值2,輸出結果iter result: 2;
如果在上面程式碼後面再加一行:
print 'iter result: %d' % next(gen_func)
結果:
iter result: 1 yield_func 100 iter result: 2 yield_func None File "G:\Cnblogs\Alpha Panda\Main.py", line 22, in <module> print 'iter result: %d' % next(gen_func) StopIteration
yield_func只會產生2個yield,但是我們迭代呼叫了3次,會丟擲異常StopIteration。
next和send均會觸發生成器函式的執行,使用for遍歷生成器函式時不要用send。原因後面解釋。
2.4 生成器返回值
使用了yield的函式嚴格來講已經不是一個函式,而是一個生成器。因此函式中yield和return是不能同時出現的。
SyntaxError: 'return' with argument inside generator
生成器只能通過yield將每次呼叫的結果返回給呼叫者。
2.5 可迭代物件轉成迭代器
list、tuple、dict等可迭代但不是迭代器的物件可通過內建函式iter轉化為iterator,便可以通過next進行遍歷;
這樣的好處是可以統一使用next遍歷所有的可迭代物件;
tup = (1,2,3) for ele in tup: print ele + ele
上面的程式碼等價於:
tup_iterator = iter(tup) while True: try: ele = next(tup_iterator) except StopIteration: break print ele + ele
for迴圈使用next遍歷一個迭代器,混合使用send可能會導致混亂的遍歷流程。
其實到這裡生成器相關的概念基本已經介紹完成了,自己動手過一遍應該能弄明白了。為了更加深刻的體會生成器,下面我們在往前走一步。
3. range與xrange
在Python 2中這兩個比較常用,看一下兩者的區別:
- range為一個內建函式,xrange是一個類;
- 前者返回一個list,後者返回一個可迭代物件;
- 後者遍歷操作快於前者,且佔用更少記憶體;
這裡xrange有點類似於上面介紹的生成器表示式,雖然xrange返回的並不是生成器,但兩者均返回並不包含全部結果可迭代物件。
3.1 自定義xrange的Iterator版本
作為一個iterator:
The iterator objects themselves are required to support the following two methods, which together form theiterator protocol :
-
iterator.
__iter__
()
Return the iterator object itself. This is required to allow both containers and iterators to be used with theandstatements. This method corresponds to theslot of the type structure for Python objects in the Python/C API.
-
iterator.
next
()
Return the next item from the container. If there are no further items, raise theexception. This method corresponds to theslot of the type structure for Python objects in the Python/C API.
下面我們自定義class my_xrange:
1 class my_xrange(object): 2def __init__(self, start, stop = None, step = 1): 3""" 僅僅為了演示,假設start, stop 和 step 均為正整數 """ 4self._start = 0 if stop is None else start 5self._stop = start if stop is None else stop 6self._step = step 7self._cur_val = self._start 8 9def __iter__(self): 10return self 11 12def next(self): 13if self._start <= self._cur_val < self._stop: 14cur_val = self._cur_val 15self._cur_val += self._step 16return cur_val 17raise StopIteration
測試結果:
import collections myxrange = my_xrange(0, 10, 3) res = [] for val in myxrange: res.append(val) print res == range(0, 10, 3) # True print isinstance(myxrange, collections.Iterator) # True print isinstance(myxrange, types.GeneratorType) # False
3.2 使用函式生成器
下面使用函式生成器定義一個generator版的xrange。
def xrange_func(start, stop, step = 1): """ 僅僅為了演示,假設start, stop 和 step 均為正整數 """ cur_val = start while start <= cur_val and cur_val < stop: yield cur_val cur_val += step
isinstance(myxrange, collections.Iterator) and isinstance(myxrange, types.GeneratorType) is True
上面兩個自定義xrange版本的例子,均說明生成器以及迭代器保留數列生成過程的狀態,每次只計算一個值並返回。這樣只要佔用很少的記憶體即可表示一個很大的序列。
4. 應用
不管是迭代器還是生成器,對於有大量有規律的資料產生並需要遍歷訪問的情景均適用,佔用記憶體少而且遍歷的速度快。其中一個較為經典的應用為斐波那契數列(Fibonacci sequence)。
這裡以os.walk遍歷目錄為例來說明yield的應用。如果我們需要遍歷一個根目錄下的所有檔案並根據需要進行增刪改查。可能會遇到下列的問題:
預先遍歷且快取結果,但是目錄下檔案可能很多,而且會動態改變;如果不快取,多個地方可能會頻繁的需要訪問這一結果導致效率低下。
這時候可以使用yield定義一個生成器函式。
def get_all_dir_files(target_dir): for root, dirs, files in os.walk(target_dir): for file in files: file_path = os.path.join(root, file) yield os.path.realpath(file_path) def file_factory(file): """ do something """ target_dir = './' all_files = get_all_dir_files(target_dir) for file in all_files: file_factory(file)
限於篇幅,就先介紹到這裡,希望本文能讓你對生成器有一個新的認識。