1. 程式人生 > >Python性能優化的20條建議

Python性能優化的20條建議

jit tips [] har eve 復雜 1.5 場景 並行編程

  1. 優化算法時間復雜度

    算法的時間復雜度對程序的執行效率影響最大,在Python中可以通過選擇合適的數據結構來優化時間復雜度,如list和set查找某一個元素的時間復雜度分別是O(n)和O(1)。不同的場景有不同的優化方式,總得來說,一般有分治,分支界限,貪心,動態規劃等思想。

  2. 減少冗余數據

    如用上三角或下三角的方式去保存一個大的對稱矩陣。在0元素占大多數的矩陣裏使用稀疏矩陣表示。

  3. 合理使用copy與deepcopy

    對於dict和list等數據結構的對象,直接賦值使用的是引用的方式。而有些情況下需要復制整個對象,這時可以使用copy包裏的copy和deepcopy,這兩個函數的不同之處在於後者是遞歸復制的。效率也不一樣:(以下程序在ipython中運行)

    import copy
    a = range(100000)
    %timeit -n 10 copy.copy(a) # 運行10次 copy.copy(a)
    %timeit -n 10 copy.deepcopy(a)
    10 loops, best of 3: 1.55 ms per loop
    10 loops, best of 3: 151 ms per loop
    

    timeit後面的-n表示運行的次數,後兩行對應的是兩個timeit的輸出,下同。由此可見後者慢一個數量級。

  4. 使用dict或set查找元素

    python dict和set都是使用hash表來實現(類似c++11標準庫中unordered_map),查找元素的時間復雜度是O(1)

    a = range(1000)
    s = set(a)
    d = dict((i,1) for i in a)
    %timeit -n 10000 100 in d
    %timeit -n 10000 100 in s
    10000 loops, best of 3: 43.5 ns per loop
    10000 loops, best of 3: 49.6 ns per loop
    

    dict的效率略高(占用的空間也多一些)。

  5. 合理使用生成器(generator)和yield

    %timeit -n 100 a = (i for i in range(100000))
    %timeit -n 100 b = [i for i in range(100000)]
    100 loops, best of 3: 1.54 ms per loop
    100 loops, best of 3: 4.56 ms per loop
    

    使用()得到的是一個generator對象,所需要的內存空間與列表的大小無關,所以效率會高一些。在具體應用上,比如set(i for i in range(100000))會比set([i for i in range(100000)])快。

    但是對於需要循環遍歷的情況:

    %timeit -n 10 for x in (i for i in range(100000)): pass
    %timeit -n 10 for x in [i for i in range(100000)]: pass
    10 loops, best of 3: 6.51 ms per loop
    10 loops, best of 3: 5.54 ms per loop
    

    後者的效率反而更高,但是如果循環裏有break,用generator的好處是顯而易見的。yield也是用於創建generator:

    def yield_func(ls):
        for i in ls:
            yield i+1
    
    def not_yield_func(ls):
        return [i+1 for i in ls]
    
    ls = range(1000000)
    %timeit -n 10 for i in yield_func(ls):pass
    %timeit -n 10 for i in not_yield_func(ls):pass
    10 loops, best of 3: 63.8 ms per loop
    10 loops, best of 3: 62.9 ms per loop
    

    對於內存不是非常大的list,可以直接返回一個list,但是可讀性yield更佳(人個喜好)。

    python2.x內置generator功能的有xrange函數、itertools包等。

  6. 優化循環

    循環之外能做的事不要放在循環內,比如下面的優化可以快一倍:

    a = range(10000)
    size_a = len(a)
    %timeit -n 1000 for i in a: k = len(a)
    %timeit -n 1000 for i in a: k = size_a
    1000 loops, best of 3: 569 μs per loop
    1000 loops, best of 3: 256 μs per loop
    
  7. 優化包含多個判斷表達式的順序

    對於and,應該把滿足條件少的放在前面,對於or,把滿足條件多的放在前面。如:

    a = range(2000)  
    %timeit -n 100 [i for i in a if 10 < i < 20 or 1000 < i < 2000]
    %timeit -n 100 [i for i in a if 1000 < i < 2000 or 100 < i < 20]     
    %timeit -n 100 [i for i in a if i % 2 == 0 and i > 1900]
    %timeit -n 100 [i for i in a if i > 1900 and i % 2 == 0]
    100 loops, best of 3: 287 μs per loop
    100 loops, best of 3: 214 μs per loop
    100 loops, best of 3: 128 μs per loop
    100 loops, best of 3: 56.1 μs per loop
    
  8. 使用join合並叠代器中的字符串

    In [1]: %%timeit
       ...: s = ‘‘
       ...: for i in a:
       ...:         s += i
       ...:
    10000 loops, best of 3: 59.8 μs per loop
    
    In [2]: %%timeit
    s = ‘‘.join(a)
       ...:
    100000 loops, best of 3: 11.8 μs per loop
    

    join對於累加的方式,有大約5倍的提升。

  9. 選擇合適的格式化字符方式

    s1, s2 = ‘ax‘, ‘bx‘
    %timeit -n 100000 ‘abc%s%s‘ % (s1, s2)
    %timeit -n 100000 ‘abc{0}{1}‘.format(s1, s2)
    %timeit -n 100000 ‘abc‘ + s1 + s2
    100000 loops, best of 3: 183 ns per loop
    100000 loops, best of 3: 169 ns per loop
    100000 loops, best of 3: 103 ns per loop
    

    三種情況中,%的方式是最慢的,但是三者的差距並不大(都非常快)。(個人覺得%的可讀性最好)

  10. 不借助中間變量交換兩個變量的值

    In [3]: %%timeit -n 10000
        a,b=1,2
       ....: c=a;a=b;b=c;
       ....:
    10000 loops, best of 3: 172 ns per loop
    
    In [4]: %%timeit -n 10000
    a,b=1,2
    a,b=b,a
       ....:
    10000 loops, best of 3: 86 ns per loop
    

    使用a,b=b,a而不是c=a;a=b;b=c;來交換a,b的值,可以快1倍以上。

  11. 使用if is

    a = range(10000)
    %timeit -n 100 [i for i in a if i == True]
    %timeit -n 100 [i for i in a if i is True]
    100 loops, best of 3: 531 μs per loop
    100 loops, best of 3: 362 μs per loop
    

    使用 if is Trueif == True 將近快一倍。

  12. 使用級聯比較x < y < z

    x, y, z = 1,2,3
    %timeit -n 1000000 if x < y < z:pass
    %timeit -n 1000000 if x < y and y < z:pass
    1000000 loops, best of 3: 101 ns per loop
    1000000 loops, best of 3: 121 ns per loop
    

    x < y < z效率略高,而且可讀性更好。

  13. while 1while True 更快

    def while_1():
        n = 100000
        while 1:
            n -= 1
            if n <= 0: break
    def while_true():
        n = 100000
        while True:
            n -= 1
            if n <= 0: break    
    
    m, n = 1000000, 1000000 
    %timeit -n 100 while_1()
    %timeit -n 100 while_true()
    100 loops, best of 3: 3.69 ms per loop
    100 loops, best of 3: 5.61 ms per loop
    

    while 1 比 while true快很多,原因是在python2.x中,True是一個全局變量,而非關鍵字。

  14. 使用**而不是pow

    %timeit -n 10000 c = pow(2,20)
    %timeit -n 10000 c = 2**20
    10000 loops, best of 3: 284 ns per loop
    10000 loops, best of 3: 16.9 ns per loop
    

    **就是快10倍以上!

  15. 使用 cProfile, cStringIO 和 cPickle等用c實現相同功能(分別對應profile, StringIO, pickle)的包

    import cPickle
    import pickle
    a = range(10000)
    %timeit -n 100 x = cPickle.dumps(a)
    %timeit -n 100 x = pickle.dumps(a)
    100 loops, best of 3: 1.58 ms per loop
    100 loops, best of 3: 17 ms per loop
    

    由c實現的包,速度快10倍以上!

  16. 使用最佳的反序列化方式

    下面比較了eval, cPickle, json方式三種對相應字符串反序列化的效率:

    import json
    import cPickle
    a = range(10000)
    s1 = str(a)
    s2 = cPickle.dumps(a)
    s3 = json.dumps(a)
    %timeit -n 100 x = eval(s1)
    %timeit -n 100 x = cPickle.loads(s2)
    %timeit -n 100 x = json.loads(s3)
    100 loops, best of 3: 16.8 ms per loop
    100 loops, best of 3: 2.02 ms per loop
    100 loops, best of 3: 798 μs per loop
    

    可見json比cPickle快近3倍,比eval快20多倍。

  17. 使用C擴展(Extension)

    目前主要有CPython(python最常見的實現的方式)原生API, ctypes,Cython,cffi三種方式,它們的作用是使得Python程序可以調用由C編譯成的動態鏈接庫,其特點分別是:

    CPython原生API: 通過引入Python.h頭文件,對應的C程序中可以直接使用Python的數據結構。實現過程相對繁瑣,但是有比較大的適用範圍。

    ctypes: 通常用於封裝(wrap)C程序,讓純Python程序調用動態鏈接庫(Windows中的dll或Unix中的so文件)中的函數。如果想要在python中使用已經有C類庫,使用ctypes是很好的選擇,有一些基準測試下,python2+ctypes是性能最好的方式。

    Cython: Cython是CPython的超集,用於簡化編寫C擴展的過程。Cython的優點是語法簡潔,可以很好地兼容numpy等包含大量C擴展的庫。Cython的使得場景一般是針對項目中某個算法或過程的優化。在某些測試中,可以有幾百倍的性能提升。

    cffi: cffi的就是ctypes在pypy(詳見下文)中的實現,同進也兼容CPython。cffi提供了在python使用C類庫的方式,可以直接在python代碼中編寫C代碼,同時支持鏈接到已有的C類庫。

    使用這些優化方式一般是針對已有項目性能瓶頸模塊的優化,可以在少量改動原有項目的情況下大幅度地提高整個程序的運行效率。

  18. 並行編程

    因為GIL的存在,Python很難充分利用多核CPU的優勢。但是,可以通過內置的模塊multiprocessing實現下面幾種並行模式:

    多進程:對於CPU密集型的程序,可以使用multiprocessing的Process,Pool等封裝好的類,通過多進程的方式實現並行計算。但是因為進程中的通信成本比較大,對於進程之間需要大量數據交互的程序效率未必有大的提高。

    多線程:對於IO密集型的程序,multiprocessing.dummy模塊使用multiprocessing的接口封裝threading,使得多線程編程也變得非常輕松(比如可以使用Pool的map接口,簡潔高效)。

    分布式:multiprocessing中的Managers類提供了可以在不同進程之共享數據的方式,可以在此基礎上開發出分布式的程序。

    不同的業務場景可以選擇其中的一種或幾種的組合實現程序性能的優化。

  19. 終級大殺器:PyPy

    PyPy是用RPython(CPython的子集)實現的Python,根據官網的基準測試數據,它比CPython實現的Python要快6倍以上。快的原因是使用了Just-in-Time(JIT)編譯器,即動態編譯器,與靜態編譯器(如gcc,javac等)不同,它是利用程序運行的過程的數據進行優化。由於歷史原因,目前pypy中還保留著GIL,不過正在進行的STM項目試圖將PyPy變成沒有GIL的Python。

    如果python程序中含有C擴展(非cffi的方式),JIT的優化效果會大打折扣,甚至比CPython慢(比Numpy)。所以在PyPy中最好用純Python或使用cffi擴展。

    隨著STM,Numpy等項目的完善,相信PyPy將會替代CPython。

  20. 使用性能分析工具

    除了上面在ipython使用到的timeit模塊,還有cProfile。cProfile的使用方式也非常簡單: python -m cProfile filename.pyfilename.py 是要運行程序的文件名,可以在標準輸出中看到每一個函數被調用的次數和運行的時間,從而找到程序的性能瓶頸,然後可以有針對性地優化。

參考

[1] http://www.ibm.com/developerworks/cn/linux/l-cn-python-optim/

[2] http://maxburstein.com/blog/speeding-up-your-python-code/

=========================

http://code.oneapm.com/python/2015/05/18/python-performance-tips/

原文地址:https://blog.newrelic.com/2015/01/21/python-performance-tips/

Python是一門優秀的語言,它能讓你在短時間內通過極少量代碼就能完成許多操作。不僅如此,它還輕松支持多任務處理,比如多進程。

不喜歡Python的人經常會吐嘈Python運行太慢。但是,事實並非如此。嘗試以下六個竅門,來為你的Python應用提速。

竅門一:關鍵代碼使用外部功能包

Python簡化了許多編程任務,但是對於一些時間敏感的任務,它的表現經常不盡人意。使用C/C++或機器語言的外部功能包處理時間敏感任務,可以有效提高應用的運行效率。這些功能包往往依附於特定的平臺,因此你要根據自己所用的平臺選擇合適的功能包。簡而言之,這個竅門要你犧牲應用的可移植性以換取只有通過對底層主機的直接編程才能獲得的運行效率。以下是一些你可以選擇用來提升效率的功能包:

  • Cython
  • Pylnlne
  • PyPy
  • Pyrex

這些功能包的用處各有不同。比如說,使用C語言的數據類型,可以使涉及內存操作的任務更高效或者更直觀。Pyrex就能幫助Python延展出這樣的功能。Pylnline能使你在Python應用中直接使用C代碼。內聯代碼是獨立編譯的,但是它把所有編譯文件都保存在某處,並能充分利用C語言提供的高效率。

竅門二:在排序時使用鍵

Python含有許多古老的排序規則,這些規則在你創建定制的排序方法時會占用很多時間,而這些排序方法運行時也會拖延程序實際的運行速度。最佳的排序方法其實是盡可能多地使用鍵和內置的sort()方法。譬如,拿下面的代碼來說:

    import operator
    somelist = [(1, 5, 8), (6, 2, 4), (9, 7, 5)]
    somelist.sort(key=operator.itemgetter(0))
    somelist
    #Output = [(1, 5, 8), (6, 2, 4), (9, 7, 5)]
    somelist.sort(key=operator.itemgetter(1))
    somelist
    #Output = [(6, 2, 4), (1, 5, 8), (9, 7, 5)]
    somelist.sort(key=operator.itemgetter(2))
    somelist
    #Output = [(6, 2, 4), (9, 7, 5), (1, 5, 8)],

在每段例子裏,list都是根據你選擇的用作關鍵參數的索引進行排序的。這個方法不僅對數值類型有效,還同樣適用於字符串類型。

竅門三:針對循環的優化

每一種編程語言都強調最優化的循環方案。當使用Python時,你可以借助豐富的技巧讓循環程序跑得更快。然而,開發者們經常遺忘的一個技巧是:盡量避免在循環中訪問變量的屬性。譬如,拿下面的代碼來說:

    lowerlist = [‘this‘, ‘is‘, ‘lowercase‘]
    upper = str.upper
    upperlist = []
    append = upperlist.append
    for word in lowerlist:
        append(upper(word))
        print(upperlist)
        #Output = [‘THIS‘, ‘IS‘, ‘LOWERCASE‘]

每次你調用str.upper, Python都會計算這個式子的值。然而,如果你把這個求值賦值給一個變量,那麽求值的結果就能提前知道,Python程序就能運行得更快。因此,關鍵就是盡可能減小Python在循環中的工作量。因為Python解釋執行的特性,在上面的例子中會大大減慢它的速度。

(註意:優化循環的方法還有很多,這只是其中之一。比如,很多程序員會認為,列表推導式是提高循環速度的最佳方法。關鍵在於,優化循環方案是提高應用程序運行速度的上佳選擇。)

竅門四:使用較新的Python版本

如果你在網上搜索Python,你會發現數不盡的信息都是關於如何升級Python版本。通常,每個版本的Python都會包含優化內容,使其運行速度優於之前的版本。但是,限制因素在於,你最喜歡的函數庫有沒有同步更新支持新的Python版本。與其爭論函數庫是否應該更新,關鍵在於新的Python版本是否足夠高效來支持這一更新。

你要保證自己的代碼在新版本裏還能運行。你需要使用新的函數庫才能體驗新的Python版本,然後你需要在做出關鍵性的改動時檢查自己的應用。只有當你完成必要的修正之後,你才能體會新版本的不同。

然而,如果你只是確保自己的應用在新版本中可以運行,你很可能會錯過新版本提供的新特性。一旦你決定更新,請分析你的應用在新版本下的表現,並檢查可能出問題的部分,然後優先針對這些部分應用新版本的特性。只有這樣,用戶才能在更新之初就覺察到應用性能的改觀。

竅門五:嘗試多種編碼方法

每次創建應用時都使用同一種編碼方法幾乎無一例外會導致應用的運行效率不盡人意。可以在程序分析時嘗試一些試驗性的辦法。譬如說,在處理字典中的數據項時,你既可以使用安全的方法,先確保數據項已經存在再進行更新,也可以直接對數據項進行更新,把不存在的數據項作為特例分開處理。請看下面第一段代碼:

    n = 16
    myDict = {}
    for i in range(0, n):
        char = ‘abcd‘[i%4]
        if char not in myDict:
            myDict[char] = 0
            myDict[char] += 1
            print(myDict)

當一開始myDict為空時,這段代碼會跑得比較快。然而,通常情況下,myDict填滿了數據,至少填有大部分數據,這時換另一種方法會更有效率。

    n = 16
    myDict = {}
    for i in range(0, n):
        char = ‘abcd‘[i%4]
        try:
            myDict[char] += 1
        except KeyError:
            myDict[char] = 1
        print(myDict)

在兩種方法中輸出結果都是一樣的。區別在於輸出是如何獲得的。跳出常規的思維模式,創建新的編程技巧能使你的應用更有效率。

竅門六:交叉編譯你的應用

開發者有時會忘記計算機其實並不理解用來創建現代應用程序的編程語言。計算機理解的是機器語言。為了運行你的應用,你借助一個應用將你所編的人類可讀的代碼轉換成機器可讀的代碼。有時,你用一種諸如Python這樣的語言編寫應用,再以C++這樣的語言運行你的應用,這在運行的角度來說,是可行的。關鍵在於,你想你的應用完成什麽事情,而你的主機系統能提供什麽樣的資源。

Nuitka是一款有趣的交叉編譯器,能將你的Python代碼轉化成C++代碼。這樣,你就可以在native模式下執行自己的應用,而無需依賴於解釋器程序。你會發現自己的應用運行效率有了較大的提高,但是這會因平臺和任務的差異而有所不同。

(註意:Nuitka現在還處在測試階段,所以在實際應用中請多加註意。實際上,當下最好還是把它用於實驗。此外,關於交叉編譯是否為提高運行效率的最佳方法還存在討論的空間。開發者已經使用交叉編譯多年,用來提高應用的速度。記住,每一種解決辦法都有利有弊,在把它用於生產環境之前請仔細權衡。)

在使用交叉編譯器時,記得確保它支持你所用的Python版本。Nuitka支持Python2.6, 2.7, 3.2和3.3。為了讓解決方案生效,你需要一個Python解釋器和一個C++編譯器。Nuitka支持許多C++編譯器,其中包括Microsoft Visual Studio,MinGW 和 Clang/LLVM。

交叉編譯可能造成一些嚴重問題。比如,在使用Nuitka時,你會發現即便是一個小程序也會消耗巨大的驅動空間。因為Nuitka借助一系列的動態鏈接庫(DDLs)來執行Python的功能。因此,如果你用的是一個資源很有限的系統,這種方法或許不太可行。

結論

前文所述的六個竅門都能幫助你創建運行更有效率的Python應用。但是銀彈是不存在的。上述的這些竅門不一定每次都能奏效。在特定的Python的版本下,有的竅門或許比其他的表現更好,但這有時候甚至取決於平臺的差異。你需要總結分析你的應用,找到它效率低下的部分,然後嘗試這些竅門,找到解決問題的最佳方法。

Python性能優化的20條建議