1. 程式人生 > >演算法與資料結構(2):時間複雜度——以歸併排序為例

演算法與資料結構(2):時間複雜度——以歸併排序為例

這一篇文章我們首先會介紹一下歸併排序,並以歸併排序和我們上一章所說的插入排序為例,介紹時間複雜度。此係列的所有程式碼均可在我的 [github](https://github.com/AlbertShenC/Algorithm) 上找到。 [點此](https://github.com/AlbertShenC/Algorithm/tree/master/MergeSort)檢視本文歸併排序的完整程式碼。 ### 分治法 在介紹歸併排序前,我們需要首先介紹一下分治法,歸併排序正是分治法的一個典型應用。 > **分治法**:將原問題分解為多個**規模較小**的但**類似於原問題**的子問題,遞迴地求解這些子問題,然後再合併這些子問題的解來建立原問題的解。 分治法一般而言分為這三步: > **分解**:將**原問題**分為若干個**子問題**,這些子問題是原問題的**規模較小的例項**。 > > **解決**:對於每一個子問題,**遞迴地求解其子問題**(即如果要求解一個子問題,但如果這個子問題仍然很複雜,那麼我們可以像對待原問題一樣,再將其分為多個子子問題)。如果子問題的規模足夠小,則直接求解(例如排序問題中,如果只有一個數據需要排序,那麼這個問題已經非常簡單了,已經可以直接得出這個問題的解)。 > > **合併**:將這些子問題的**解合併**在一起,組成為原問題的解。 這其中最為重要的一步,是如何分解問題,保證其子問題與原問題除了在問題規模上,其他所有屬性均相同。 ### 歸併排序 歸併排序完全遵照分治法的思路: > **分解**:將等待排序的n個元素的序列分解為各 n/2 個元素的**兩個子序列**。 > > **解決**:如果元素個數大於1,繼續進行分解;如果元素個數等於1,直接返回此序列。 > > **合併**:合併兩個已排序的子序列,形成一個已排序的序列。 ![](https://img2020.cnblogs.com/blog/1346314/202003/1346314-20200321172618817-784912375.gif) 雖然上面這部分內容就是歸併排序的步驟,但可能很多讀者依然沒有太明白:什麼?就這?這就排序好了?是的,就這。接下來我們詳細介紹一下每一步的過程。 #### 歸併排序的合併步驟 歸併排序的合併步驟是歸併排序最重要的一步。這一步的目標是: > 將兩個**已經排序完成**的序列合併為一個新的排序完成的序列。 具體C語言程式碼如下: ```c // 合併兩個相鄰的陣列 // 將已經有序的陣列 array[0, array_length1 - 1] 與 array[array_length1, array_length1 + array_length2 - 1] // 合併至 array[0, array_length1 + array_length2 - 1],並依然保證有序 int Merge(int* array, int array_length1, int array_length2){ int i, j, k; // 臨時變數 int* temp_array1 = (int*)malloc(sizeof(int) * (array_length1 + 1)); int* temp_array2 = (int*)malloc(sizeof(int) * (array_length2 + 1)); // 複製新陣列,因為原陣列將會用於儲存結果 for(i = 0; i < array_length1; i++){ temp_array1[i] = array[i]; } temp_array1[array_length1] = INT_MAX; for(i = 0; i < array_length2; i++){ temp_array2[i] = array[array_length1 + i]; } temp_array2[array_length2] = INT_MAX; // 進行合併操作 j = 0; k = 0; for(i = 0; i < array_length1 + array_length2; i++){ // 我是第22行 if(temp_array1[j] > temp_array2[k]){ array[i] = temp_array2[k]; k++; } else{ array[i] = temp_array1[j]; j++; } } // 釋放申請的空間 free(temp_array1); free(temp_array2); return 0; } ``` 上述程式碼中,array是一個數組,我們的**目標**是將**已經有序**的**相鄰陣列** array[0, array_length1 - 1] 與 array[array_length1, array_length1 + array_length2 - 1] ,**合併**至 array[0, array_length1 + array_length2 - 1],並**依然保證有序**。如下圖所示: ![](https://img2020.cnblogs.com/blog/1346314/202003/1346314-20200321172634316-551120873.png) 具體**步驟**的解釋我們仍以撲克牌為例:現在我們在桌上有**兩堆牌面向上的牌**,每堆都按照**從小到大的順序**排序完成,即最小的牌在頂部。此時我們比較這兩堆牌的頂部牌的大小,選擇**較小**的那一張(如果一樣大,就隨意選擇一張),將牌拿走,並將其牌面向下放在**輸出牌堆**,此時我們拿走的那張牌下面的牌也顯露了出來,我們重複上述過程,繼續將選出來的牌牌面向下蓋在輸出牌堆,直至將所有牌均轉移至輸出牌堆。 在合併的過程中,必定會有一個牌堆先空,此時最直接的想法是直接將另一個牌堆的所有牌 牌面向下蓋在輸出堆,但在我上文中給出的的歸併排序程式碼中,為了使得程式碼簡潔,我採用了另外一種策略,在兩個牌堆底部新增一張**無限大**的牌(由於真實計算機的限制,無法表示無限大,所以我們採用int的最大值,即INT_MAX來代替,效果也是一樣的),這樣在另一個牌堆中,除了同樣被我們人為新增進去的無限大牌以外,其餘牌均小於無限大,那麼必定也可以逐個將所有剩下的牌轉移至輸出堆。其實這樣會有一個bug,即如果第二個陣列中有多個數的大小是INT_MAX,那麼我們會一直從第一個陣列中取值,這樣就會出現陣列越界的問題,修復這個bug就當做課後作業交給讀者們解決了。其實解決方法無非兩種,一是規定陣列中不得出現值為INT_MAX的資料~~,是的我就是這麼懶,你來打我啊~~;二是判斷如果 j 已經不小於 array_length1 了,則取值 temp_array[array_length1 - 1]。 上文中之所以要牌面向下僅僅是為了保證結果也是從小到大的,如果牌面向上結果則為從大到小。如果不理解這個小細節並不影響對於歸併排序演算法的理解,讀者可以在閱讀完整篇文章,理解了歸併排序後再回過頭來,應該就能馬上明白其用處。或者讀者也可以拿一副撲克牌自己親手嘗試一下。 #### 證明合併步驟的正確性 正如我們上一篇文章所說,**一個演算法最重要的是正確性**,所以我們將首先進行這一步,判斷上述合併程式碼的關鍵步驟:第22行~第30行的正確性。如果判斷正確性的3個步驟已經忘了,可以去回顧一下[第一篇文章](https://albertcode.info/?p=73)。同時為了方便說明,我們將第一個陣列稱為 L,第二個陣列稱為 R,同時 i 恆等於 j + k: > **初始化**:迴圈開始前,i == 0 ,即目標陣列 array 為空,必然**有序**,且這個空陣列包含 L 和 R 中的 **0 個最小的元素**;j == k == 0,則 **L[j]** 和 **R[k]** 分別為 L 和 R 陣列中未被複制到 array 陣列的**最小的元素**。 > > **保持**:我們不妨假設 L[j] <= R[k],則 L[j] 是未複製到 array 陣列的最小的元素。因為 array[0, i - 1] 包含 i - 1 個最小元素且有序,所以將 L[j] 複製到 array[i] 以後,array[0, i] 包含 **i 個最小元素**,且**有序**。增加 i 值和 j 值後,**L[j]** 依然是 L 陣列中未被複制到 array 陣列的**最小的元素**,R 陣列由於未發生變化,所以**R[k]** 依然是 R 陣列中未被複制到 array 陣列的**最小的元素**。反之若 L[j] > R[k],同理可得。 > > **終止**:當 j == array_length1,k == array_length2 時,程式終止。此時 array[0, array_length1 + array_length2 - 1] 包含 L[0, array_length1 - 1] 和 R[0, array_length2] 中**最小的 array_length1 + array_length2 個元素**且**有序**。L[array_length1] 和 R[array_length2] 是我們手動加入的兩個無限大的值。 #### 歸併排序的其他步驟 在理解了合併步驟以後,歸併排序的剩下兩個步驟就很簡單了。具體C語言程式碼如下: ```c // 歸併排序,結果按升序排列 int MergeSort(int* array, int array_length){ // 若陣列長度為1,必然有序 if(array_length == 1){ return 0; } int half_array_length = array_length / 2; // 將陣列分為兩個部分,遞迴實現子陣列的排序 MergeSort(array, half_array_length); MergeSort(array + half_array_length, array_length - half_array_length); // 將已經排序完成的子數組合並,實現整個陣列的排序 Merge(array, half_array_length, array_length - half_array_length); return 0; } ``` 我們可以將 Merge() 函式用在 MergeSort() 中,作為一個子程式。若陣列長度為1,則直接返回,因為**一個數據必然是有序**的;若陣列長度大於1,則將此陣列**分解**為兩個子陣列,分別進行**遞迴呼叫**,通過這兩步後,兩個子陣列已經有序,然後將兩個陣列進行**合併**,形成一個新的有序陣列。 提示:可能有的讀者才入門沒有多久,無法理解為何將陣列分為兩個子陣列後,遞迴呼叫完成後這兩個子陣列就分別有序了。我們以第一個子陣列為例進行分析:假設第一個子陣列(不妨稱為陣列a)長度為4,所以我們仍需將此陣列分解,**分解為長度均為2**的兩個**子子陣列**(不妨稱為 a_a 和 a_b ),對於陣列 a_a 而言,仍需**分解為長度各為1**的兩個**子子子陣列**(不妨稱為 a_a_a 和 a_a_b),由於 a_a_a 和 a_a_b 各只有一個元素,所以已經有序,直接返回。那麼陣列 a_a 已經有了兩個有序的子陣列,利用我們上文所說的合併演算法,**合併為一個長度為2的有序陣列**。同理陣列 a_b 也通過類似步驟成為一個長度為2的有序陣列,那麼我們對陣列 a_a 和 a_b 使用上文中的合併演算法,則將陣列 a_a 和 a_b **合併為一個長度為4的有序陣列**,即為a。 如下圖,就是一個將陣列 [5, 4, 2, 7, 1, 6, 8, 3] 進行歸併排序的樣例。 ![](https://img2020.cnblogs.com/blog/1346314/202003/1346314-20200321172647369-1994303375.png) #### 歸併排序的執行效率分析 當一個演算法包含對其自身的遞迴呼叫時,我們可以使用**遞迴方程**來描述其執行時間。我們對此進行的分析也是按照分治法的三個步驟來進行。 T(n)表示規模為n的一個問題的執行時間。當問題規模足夠小的時候,直接求解僅需要常量時間,如歸併排序時陣列長度為1時,記為$\Theta (1)$,含義與數學中漸進分析一樣,我們通俗的理解為**等於某個常數**,規範解釋我們將在下文的時間複雜度中詳細介紹。 當問題規模較大是,需要進行分解,例如將原問題分解為a個子問題,每個子問題的規模是原問題的 1/b (歸併排序中 a 和 b 均等於2,但在很多其他分治法中,a 和 b 並不相同)。為了求解一個規模為 n/b 的子問題,需要 T(n/b) 的時間,所以需要 a*T(n/b) 的時間來求解 a 個子問題,如果分解子問題需要時間 D(n),合併子問題的解需要時間 C(n),那麼得到遞迴式: $$ T(n) =\begin{cases} \Theta (1) & 若n足夠小 \\ a*T(n/b) + D(n) + C(n) & 其他\end{cases} $$ 例如對於歸併排序,我們也如上進行分析,此時我們僅分析最壞情況,原因我們已經在[上一篇文章](https://albertcode.info/?p=73)中討論過了: 分解步驟僅需要計運算元陣列的中間位置,需要常量時間,即 $D(n) = \Theta(1)$。 解決問題時,我們需要遞迴地求解兩個規模均為 n/2 的子問題,因此需要時間 $2*T(n/2)$。 合併問題的解時,只需要掃描兩個子陣列各一遍,因此與問題規模成線性關係,即 $C(n) = \Theta(n)$。 故最終的時間複雜度公式為 $$ T(n) =\begin{cases} \Theta (1) & 若n=1 \\ 2*T(n/2) + \Theta(1) + \Theta(n) & 若n > 1 \end{cases} $$ 如果數學基礎較好的讀者,可能已經能夠通過此表示式計算出最終的執行時間: $$ T(n) = \Theta(n*lgn) ,其中lgn表示log_{2}n $$ 與數學中不同,由於計算機採用二進位制,所以**log預設底為2,而非10**,這一點需要讀者們注意,以後的文章我們將不會強調這一點,但讀者們應該時刻記住這一關鍵點。具體的結果計算過程,由於篇幅原因,我們不再贅述,數學基礎較差的讀者可以去搜索“**遞推公式求和**”,如果只是想知道結論也可以直接搜尋“**主定理**”。如果確實需要的話,大家可以給我留言,我以後專門寫一篇文章來詳細介紹一下。 從上述分析我們可以看出,歸併排序的時間複雜度遠低於插入排序,在實際中,如果一個演算法的時間複雜度已經達到 O(n\*lgn),通常認為已經無需再進行優化了,因為對數的增長趨勢非常低,我們幾乎可以認為 O(n\*lgn) 幾乎等同於 O(n),而一個問題,你再怎麼也要把資料全部讀取一遍吧,這樣時間複雜度已經達到了 O(n)。當然你要是真能做到 O(n) 的話,那我只能說一聲“大佬大佬,技不如人,甘拜下風”。 ### 時間複雜度 我們前面說了這麼久的時間複雜度,那時間複雜度究竟是一個什麼東西呢?其實在看完上一篇文章和此文章前面的內容以後,相信大部分讀者只需要讀一遍下面的內容就能明白了。 之所以我們提出時間複雜度這個概念,正如我們前文所說,我們大部分時候並不需要確定一個演算法的精確執行時間,只需要知道他的增長趨勢。為了這個目的,我們將低次項與常係數忽略,只關心影響此演算法效率最為核心的部分。 #### 漸進符號 這些符號直接使用的數學中的相關符號,含義也幾乎完全一樣。 $\Theta$ 記號我們前面已經看到過了,讀作 Theta ,在這裡,我們給出他的一個詳細定義: 對於任意給定的函式 $g(n)$:$\Theta(g(n)) = \{ f(n)$:存在正常量 $c_1$、$c_2$ 和 $n_0$,使得對於所有 $n \geq n_0$,有 $0 \leq c_1*g(n) \leq f(n) \leq c_2 * g(n) \}$。 通俗一點來說,當問題規模足夠大時,若函式 $f(n)$ 能“夾在” $c_1*g(n)$ 和 $c_2*g(n)$ 之間,則 $f(n)$ 屬於集合 $\Theta(g(n))$。 例如 $a*n^2 + b*n + c + d*lgn \in \Theta(n^2)$,其中 $a \neq 0$。 第二個符號則是 O 記號,一般讀作“大O”。定義為: 對於任意給定的函式 $g(n)$:$O(g(n)) = \{ f(n)$:存在常量 $c$ 和 $n_0$,使得對於所有 $n \geq n_0$,有 $0 \leq f(n) \leq c*g(n) \}$。 與之相似的符號是 o 記號,一般讀作"小o"。定義為: 對於任意給定的函式 $g(n)$:$O(g(n)) = \{ f(n)$:存在常量 $c$ 和 $n_0$ ,使得對於所有 $n \geq n_0$,有 $0 \leq f(n) < c*g(n) \}$。 與 大O 記號相反的是 $\Omega$ 符號,讀作“大Omega”,定義為: 對於任意給定的函式 $g(n)$:$O(g(n)) = \{ f(n)$:存在常量 $c$ 和 $n_0$ ,使得對於所有 $n \geq n_0$,有 $0 \leq c*g(n) \leq f(n) \}$。 以及 $\omega$ 符號,讀作“小omega”,定義為: 對於任意給定的函式 $g(n)$:$O(g(n)) = \{ f(n)$:存在常量 $c$ 和 $n_0$ ,使得對於所有 $n \geq n_0$,有 $0 \leq c*g(n) < f(n) \}$。 看了這麼多,你一定在想,這是什麼東西?其實後面四個符號都是從 Theta 符號衍生而來的,大O和小o表示**漸進上界**,大Omega和小omega是**漸進下界**。 或者說人話,Theta表示這個演算法執行速度**就是g(n)這麼快**;大O表示這個演算法執行速度**至少和g(n)一樣快**;小o表示這個演算法執行速度**必定快於g(n)**;大Omega表示這個演算法速度**至少和g(n)一樣慢**;小omega表示這個演算法**必定慢於g(n)**。一眼看來是有點亂,但相信大家多看幾遍也就明白了。 #### 何為時間複雜度 現在我們一句話就能說清楚什麼是事件複雜度了:一個演算法執行時間的**大O**,或者說這個演算法**最差情況**下的**執行效率**。例如 插入排序時間複雜度:$O(n^2)$ 歸併排序時間複雜度:$O(n*lgn)$ 為什麼一定要定義這麼複雜呢?其實最重要的原因是,演算法是一門對於數學和邏輯要求很高的學科,包含了大量的證明和計算,這就要求其必須有著一套嚴密的符號規定與術語。 當然對於普通人而言,最重要的是表示我是真的學了演算法的以及我能聽懂別人在說什麼,同時也可以偷偷懶。例如某一天有人告訴你“我這個演算法的時間複雜度是O(n)”,你一下子就明白了,如果沒有這些定義,那麼應該怎麼說?“如果輸入規模是n,那麼我的這個演算法在最差情況下,執行時間和n呈線性關係。什麼?你不知道什麼是線性關係?線性關係是xxx”,這樣一想,還是時間複雜度這五個字聽著舒服些。 ### 結語 前面兩篇文章的數學知識可能較多,但這確實無法避免,作者已經儘量減少了數學相關的內容,數學證明也儘量使用大白話來描述了。後續將逐步介紹一些演算法和資料結構,需要使用的數學知識相較於這兩章要少很多,所以讀者們如果真的數學底子不是很好的話,也不需要擔心,但作者依然建議有時間能夠學一學數學,畢竟研究計算機的那一波祖師爺可幾乎全是數學家呢,計算機天生就和數學分不開。如果有條件的話,可以先學習一下高中數學裡數列的知識,然後當某一天感覺自己達到了瓶頸時,可以學習一下離散數學,如果非常有興趣的話,可以再學一學數論。 下一篇文章將會介紹排序演算法中最為常用的“堆排序”。 原文連結:[albertcode.info](https://albertcode.info/?p=95) 個人部落格:[albertcode.info](https://albertcode.info) 微信公眾號:Albert