中國象棋人機對弈搜尋演算法學習-極大極小值，負極大值，alpha-beta演算法

阿新 • • 發佈：2019-01-15

極大極小值法

深度搜索（dfs）虛擬碼

/**
1。 p 為棋盤
2。 d 為規定的搜素最大深度，比如d層紅方，d-1層為黑方，d-2層為紅方...依此類推，可採用mod2來判斷當前是哪一方
4。評估棋盤的函式evaluation,當然需要看是哪一方，若紅方為機器，黑方為人，那麼機器（紅方）做為極大（INF），人作為極小(-INF)，讓機器選擇最合適的一步。
**/
int MiniMax(chessmap p , int d)
{
    int bestvalue , value ;
    if( Game Over )// 如果遊戲結束
        return evaluation(p);
    if 
(depth <= 0) // 如果已經到了搜尋樹葉子結點
        return evaluation(p);
    if( d % 2  == RED) //輪到紅方
        bestvalue = - INF; 
    else
        bestvalue = INF ;
     for(each possible move m)
    {
        MakeMove(m) ; //產生第i個局面（子節點）,p會相應變化
        value = MiniMax(p,d-1);//遞迴
        UnMakeMove(m) ; // 恢復p
        if 
(d % 2 == RED)
            bestvalue = max(value ,bestvalue);//取最大
        else
            bestvalue = max(value ,bestvalue);//取最小
    }
    return bestvalue;
}

負極大值法：

虛擬碼

負極大值法依然是極大極小值法，只是多了個負號。博弈樹中父結點的值是其子節點的負最大值。即黑方取最大，紅方取負最大，這樣比較最大就行了。程式碼要比極大極小值法要好簡潔一些。

實現時，需要用變數儲存每一次移動情況，DFS中只需要擁有一個最大深度的陣列即可。結束時，取陣列的第一個移動，作為當前的最好移動。

Alpha-beta搜尋演算法

口袋的例子
　
　　比如你的死敵面前有很多口袋，他和你打賭賭輸了，因此他必須從中給你一樣東西，而挑選規則卻非常奇怪：
　　每個口袋裡有幾件物品，你能取其中的一件，你來挑這件物品所在的口袋，而他來挑這個口袋裡的物品。你要趕緊挑出口袋並離開，因為你不願意一直做在那裡翻口袋而讓你的死敵盯著你。
　　假設你一次只能找一隻口袋，在找口袋時一次只能從裡面摸出一樣東西。
　　很顯然，當你挑出口袋時，你的死敵會把口袋裡最糟糕的物品給你，因此你的目標是挑出“諸多最糟的物品當中是最好的”那個口袋。
　　你很容易把最小-最大原理運用到這個問題上。你是最大一方棋手，你將挑出最好的口袋。而你的死敵是最小一方棋手，他將挑出最好的口袋裡儘可能差的物品。運用最小-最大原理，你需要做的就是挑一個有“最好的最差的”物品的口袋。
　　假設你可以估計口袋裡每個物品的準確價值的話，最小-最大原理可以讓你作出正確的選擇。我們討論的話題中，準確評價並不重要，因為它同最小-最大或Alpha-Beta的工作原理沒有關係。現在我們假設你可以正確地評價物品。
　　最小-最大原理剛才討論過，它的問題是效率太低。你必須看每個口袋裡的每件物品，這就需要花很多時間。
　　那麼怎樣才能做得比最小-最大更高效呢？
　　我們從第一個口袋開始，看每一件物品，並對口袋作出評價。比方說口袋裡有一隻花生黃油三明治和一輛新汽車的鑰匙。你知道三明治更糟，因此如果你挑了這隻口袋就會得到三明治。事實上只要我們假設對手也會跟我們一樣正確評價物品，那麼口袋裡的汽車鑰匙就是無關緊要的了。
　　現在你開始翻第二個口袋，這次你採取的方案就和最小-最大方案不同了。你每次看一件物品，並跟你能得到的最好的那件物品(三明治)去比較。只要物品比三明治更好，那麼你就按照最小-最大方案來辦——去找最糟的，或許最糟的要比三明治更好，那麼你就可以挑這個口袋，它比裝有三明治的那個口袋好。
　　比方這個口袋裡的第一件物品是一張20美元的鈔票，它比三明治好。如果包裡其他東西都沒比這個更糟了，那麼如果你選了這個口袋，它就是對手必須給你的物品，這個口袋就成了你的選擇。
　　這個口袋裡的下一件物品是六合裝的流行唱片。你認為它比三明治好，但比20美元差，那麼這個口袋仍舊可以選擇。再下一件物品是一條爛魚，這回比三明治差了。於是你就說“不謝了”，把口袋放回去，不再考慮它了。
　　無論口袋裡還有什麼東西，或許還有另一輛汽車的鑰匙，也沒有用了，因為你會得到那條爛魚。或許還有比爛魚更糟的東西(那麼你看著辦吧)。無論如何爛魚已經夠糟的了，而你知道挑那個有三明治的口袋肯定會更好。
草圖，理解著思考

我：我的接受程度有下限，給我的太差，我肯定不幹。
對方： 我肯定給你相對最差的，但是我無法確定每個口袋究竟有哪些物品，我不希望出現某個口袋好東西很多，我可給不起。

中國象棋人機對弈搜尋演算法學習-極大極小值，負極大值，alpha-beta演算法

極大極小值法

負極大值法：

Alpha-beta搜尋演算法

中國象棋人機對弈搜尋演算法學習-極大極小值，負極大值，alpha-beta演算法

QT五子棋專案詳解之四：AI人機對戰max-min極大極小值博弈演算法

五子棋（人機）-極大極小值搜尋演算法

201803-4棋局評估_極大極小值演算法_對抗搜尋（轉載）

極大極小值搜尋 + 剪枝

牛頓法求極大極小值

對極大極小搜尋和阿爾法貝塔剪枝搜尋演算法的簡單描述與理解--萌新向通俗易懂

基於Qt Creator實現中國象棋人機對戰， c++實現

[演算法] 極大極小搜尋

極大極小演算法轉

【LeetCode 913】cat-and-mouse | BFS+記憶化 | 極大極小搜尋+AB剪枝 | CGUZ | H

博弈基礎——極大極小搜尋

極大極小演算法原理

CCF 201803-4 棋局評估極大極小搜尋

演算法學習之資料結構之單鏈表反轉，兩兩反轉

MATLAB—一字棋（極大極小搜尋）

poj 1085 Triangle War 1568 Find the Winning Move 極大極小搜尋 alpha-beta剪枝

POJ 1085 Triangle War（極大極小搜尋+alpha-beta剪枝）

POJ 1085 Triangle War（博弈，極大極小搜尋+alpha_beta剪枝）

極大極小搜索思想+（α/β）減枝【轉自-----https://blog.csdn.net/hzk_cpp/article/details/79275772】

中國象棋人機對弈搜尋演算法學習-極大極小值，負極大值，alpha-beta演算法

極大極小值法

負極大值法：

Alpha-beta搜尋演算法

相關推薦