UCT（信心上限樹演算法）解四子棋問題——蒙特卡羅法模擬人機博弈

阿新 • • 發佈：2018-12-30

#ifndef __UCT_H__
#define __UCT_H__

#include 
#include 
#include 
#include 
#include "Judge.h" //包含判斷勝負的函式userWin，machineWin和isTie 

#define EMPTY 0 //未落子 
#define PLAYER_CHANCE 1 //玩家棋權 
#define COMPUTER_CHANCE 2 //電腦（AI）棋權 
#define TIME_LIMITATION 3000 //計算時長限制
#define PLAYER_WIN_PROFIT -1 //玩家獲勝時的收益 
#define COMPUTER_WIN_PROFIT 1 //我方AI獲勝時的收益 
#define TIE_PROFIT 0 //平局收益
#define UNTERMINAL_STATE 2 //非終止狀態 
#define VITALITY_COEFFICIENT 0.8 //比例係數c 

using namespace std;

class UCT;

class Node
{
private: 
	int **boardState; //棋局狀態
	int *topState; //頂端狀態
	int row, column; //棋盤大小（M, N）
	int _noX, _noY; //不可落子點位置 
	int _chessman; //我方持子屬性 
	int _x, _y; //前一上落子位置
	int visitedNum; //被訪問次數 
	double profit; //當前狀態我方收益
	int _depth; //節點深度 
	Node *father; //父節點
	Node **children; //子節點
	int expandableNum; //可擴充套件節點數量 
	int *expandableNode; //可擴充套件節點編號 
	friend class UCT;
	
	int *TopState() const { //複製棋盤頂端狀態陣列topState 
		int *presentTop = new int[column];
		for (int i = 0; i != column; i ++)
			presentTop[i] = topState[i];
		return presentTop;
	}
	int **BoardState() const { //複製棋盤狀態陣列boardState 
		int **presentBoardState = new int*[row];
		for (int i = 0; i < row; i ++) {
			presentBoardState[i] = new int[column];
			for(int j = 0; j < column; j ++)
				presentBoardState[i][j] = boardState[i][j];
		}
		return presentBoardState;
	}
	void clear() { //空間釋放
		for (int i = 0; i != row; i ++)
			delete [] boardState[i];
		delete [] boardState;
		delete [] topState;
		delete [] expandableNode;
		for (int i = 0; i != column; i ++)
			if (children[i]) {
				children[i] -> clear();
				delete children[i];
			}
		delete [] children;
	}
	
public:
	//建構函式 
	Node(int **board, int *top, int r, int c, int noX, int noY, int depth = 0, int x = -1, int y = -1, int playingRight = COMPUTER_CHANCE, Node* _father = NULL): 
		boardState(board), topState(top), row(r), column(c), _noX(noX), _noY(noY), _depth(depth), _x(x), _y(y), _chessman(playingRight), visitedNum(0), profit(0), father(_father) {
		expandableNum = 0; 
		children = new Node*[column]; //大小等於行數的子節點陣列 
		expandableNode = new int[column]; //可到達子節點編號的陣列 
		for (int i = 0; i != column; i ++) {
			if (topState[i] != 0) //若第i列可落子 
				expandableNode[expandableNum ++] = i;
			children[i] = NULL;
		}
	}
	int x() const { return _x; }
	int y() const { return _y; }
	int chessman() const { return _chessman; }
	bool isExpandable() const { return expandableNum > 0; }//是否可擴充套件
	//是否為終止節點 
	bool isTerminal() {
		if (_x == -1 && _y == -1) //若為根節點 
			return false;
		if ((_chessman == PLAYER_CHANCE && machineWin(_x, _y, row, column, boardState)) || //計算機勝利 
			(_chessman == COMPUTER_CHANCE && userWin(_x, _y, row, column, boardState)) || //玩家勝利 
			(isTie(column, topState))) //平局 
			return true;
		return false;
	}
	//擴充套件節點 
	Node *expand(int playingRight) { 
		int index = rand() % expandableNum; //隨機確定一個索引值 
		int **newBoardState = BoardState(); //複製棋盤狀態陣列 
		int *newTopState = TopState(); //複製棋盤頂端狀態陣列 
		int newY = expandableNode[index], newX = -- newTopState[newY]; //確定落子座標 
		newBoardState[newX][newY] = chessman(); //落子 
		if (newX - 1 == _noX && newY == _noY) //若落子位置的正上方位置是不可落子點 
			newTopState[newY] --; //更新棋盤頂端狀態陣列
		//為當前節點建立擴充套件子節點 
		children[newY] = new Node(newBoardState, newTopState, row, column, _noX, _noY, _depth + 1, newX, newY, playingRight, this);
		swap(expandableNode[index], expandableNode[-- expandableNum]); //將被選中子節點編號置換到目錄末尾
		return children[newY];
	}
	//最優子節點
	Node *bestChild() {
		Node* best;
		double maxProfitRatio = -RAND_MAX;
		for (int i = 0; i != column; i ++) {
			if (children[i] == NULL) continue;
			double modifiedProfit = (_chessman == PLAYER_CHANCE ? -1 : 1) * children[i] -> profit; //修正收益值
			int childVisitedNum = children[i] -> visitedNum; //子節點訪問數 
			double tempProfitRatio = modifiedProfit / childVisitedNum + 
				sqrtl(2 * logl(visitedNum) / childVisitedNum) * VITALITY_COEFFICIENT; //計算綜合收益率 
			if (tempProfitRatio > maxProfitRatio || (tempProfitRatio == maxProfitRatio && rand() % 2 == 0)) { //選擇綜合收益率最大的子節點 
				maxProfitRatio = tempProfitRatio;
				best = children[i];
			}
		}
		return best;
	} 
	//回溯更新
	void backup(double deltaProfit) {
		Node *temp = this;
		while (temp) {
			temp -> visitedNum ++; //訪問次數+1 
			temp -> profit += deltaProfit; //收益增加delta 
			temp = temp -> father;
		}
	} 
};

class UCT
{
private:
	Node *_root; //根節點
	int _row, _column; //行數、列數
	int _noX, _noY; //不可落子點的位置 
	int startTime; //計算開始時間
	
	//計算當前狀態收益
	int Profit(int **board, int *top, int chessman, int x, int y) const { 
		if (chessman == PLAYER_CHANCE && userWin(x, y, _row, _column, board))
			return PLAYER_WIN_PROFIT;
		if (chessman == COMPUTER_CHANCE && machineWin(x, y, _row, _column, board))
			return COMPUTER_WIN_PROFIT;
		if (isTie(_column, top))
			return TIE_PROFIT;
		return UNTERMINAL_STATE; //未進入終止狀態 
	}
	//隨機落子 
	void placeChessman(int **board, int *top, int chessman, int &x, int &y) {
		y = rand() % _column; //隨機選擇一列 
		while (top[y] == 0) //若此列已下滿 
			y = rand() % _column; //再隨機選擇一列 
		x = -- top[y]; //確定落子高度 
		board[x][y] = chessman; //落子 
		if (x - 1 == _noX && y == _noY) //若落子位置正上方緊鄰不可落子點 
			top[y] --;
	}
	//棋權變換 
	int rightChange(int chessman) const {
		if (chessman == PLAYER_CHANCE)
			return COMPUTER_CHANCE;
		else if (chessman == COMPUTER_CHANCE)
			return PLAYER_CHANCE;
		else
			return -1;
	} 
	
	//搜尋樹策略 
	Node *TreePolicy(Node *presentNode) {
		while (!presentNode -> isTerminal()) { //節點不是終止節點 
			if (presentNode -> isExpandable()) //且擁有未被訪問的子狀態 
				return Expand(presentNode); //擴充套件該節點 
			else
				presentNode = BestChild(presentNode); //選擇最優子節點 
		}
		return presentNode;
	}
	//對節點進行擴充套件
	Node *Expand(Node *presentNode) { return presentNode -> expand(rightChange(presentNode -> chessman())); }
	//最優子節點 
	Node *BestChild(Node *father) { return father -> bestChild(); }
	//模擬策略 
	double DefaultPolicy(Node *selectedNode) { 
		int **boardState = selectedNode -> BoardState(), *top = selectedNode -> TopState();
		int chessman = selectedNode -> chessman(), depth = selectedNode -> _depth;
		int x = selectedNode -> x(), y = selectedNode -> y();
		int profit = Profit(boardState, top, rightChange(chessman), x, y); //計算收益 
		while (profit == UNTERMINAL_STATE) { //若當前狀態未達終止狀態 
			depth ++;
			placeChessman(boardState, top, chessman, x, y); //隨機落子 
			profit = Profit(boardState, top, chessman, x, y); //計算收益 
			chessman = rightChange(chessman); //棋權變換 
		}
		for (int i = 0; i != _row; i ++)
			delete [] boardState[i];
		delete [] boardState;
		delete [] top;
		return double(profit);// / logl(depth + 1); //非線性加速
	}
	//回溯更新收益(深度越深收益越小)
	void Backup(Node *selectedNode, double deltaProfit) { selectedNode -> backup(deltaProfit); }
	
public:
	//建構函式 
	UCT(int row, int column, int noX, int noY): _row(row), _column(column), _noX(noX), _noY(noY), startTime(clock()) {}
	//信心上限樹搜尋 
	Node *UCTSearch(int **boardState, int *topState) {
		_root = new Node (boardState, topState, _row, _column, _noX, _noY); //以當前狀態建立根節點 
		while (clock() - startTime <= TIME_LIMITATION) { //尚未耗盡計算時長 
			Node *selectedNode = TreePolicy(_root); //運用搜索樹策略節點 
			double deltaProfit = DefaultPolicy(selectedNode); //運用模擬策略對選中節點進行一次隨機模擬 
			Backup(selectedNode, deltaProfit); //將模擬結果回溯反饋給各祖先 
		}
		return BestChild(_root);
	}
	//解構函式 
	~UCT() { _root -> clear(); delete _root; } 
};

#endif //__UCT_H__

這段程式碼是有一定的冗餘性的，我在編寫的過程中下意識地將部分本應在演算法類UCT當中實現的功能在本應只是作為結構體的Node類中實現了，造成了一定的條理性的缺失。

UCT（信心上限樹演算法）解四子棋問題——蒙特卡羅法模擬人機博弈

#ifndef __UCT_H__ #define __UCT_H__ #include #include #include #include #include "Judge.h" //包含判斷勝負的函式userWin，machineWin和isTie #define EMPTY 0 //未落子

（拼多多筆試演算法）根據二叉樹的前序遍歷和中序遍歷確定後序遍歷的兩種思路

根據二叉樹的前序遍歷和中序遍歷確定後序遍歷輸入：第一行：結點數目第二行：前序遍歷陣列第三行：中序遍歷陣列輸出：後序遍歷陣列例如：第一行：7 第二行：6 4 2 5 3 1 7 第三行：4 2 5 6 1 3 7 輸出：5 2 4 1 7 3 6 我思

深度學習 --- BP演算法詳解（誤差反向傳播演算法）

本節開始深度學習的第一個演算法BP演算法，本打算第一個演算法為單層感知器，但是感覺太簡單了，不懂得找本書看看就會了，這裡簡要的介紹一下單層感知器：圖中可以看到，單層感知器很簡單，其實本質上他就是線性分類器，和機器學習中的多元線性迴歸的表示式差不多，因此它具有多元線性迴歸的優點和缺點。

藍書（演算法競賽進階指南）刷題記錄——CH0602 黑暗城堡（最短路樹計數）

題目大意：給出一張圖，求這張圖不同最短路樹的形態.期中最短路樹指的是對於任意一個點i，樹上1到i的路徑長度等於圖上1到i的最短路徑長度的生成樹. 我們發現這棵生成樹必須滿足的條件其實就是以1為根，1到任意一個點的路徑長度要是原圖的一條最短路. 我們用dis[i]表示原

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

內含3種演算法的核心部分. 沒有找到很好的測試資料. 但就理清演算法思路來說問題不大剪枝演算法目前只實現了CART迴歸樹的後剪枝. import numpy as np from collections import Counter from sklearn imp

LeetCode144. 二叉樹的前序遍歷（非遞迴演算法）

給定一個二叉樹，返回它的前序遍歷。示例: 輸入: [1,null,2,3] 1 2 / 3 輸出: [1,2,3] 進階: 遞迴演算法很簡單，你可以通過迭代演算法完成嗎？ /** * Definition for a binary tree node.

php實現無限級樹型選單（函式遞迴演算法）

大概步驟如下：首先到資料庫取資料，放到一個數組，然後把資料轉化為一個樹型狀的陣列，最後把這個樹型狀的陣列轉為html程式碼。也可以將第二步和第三步合為一步。詳細如下： 1。資料庫設計：指令碼如下： CREATE TABLE `bg_cate`(`cate_I

JVM記憶體管理------GC演算法精解（分代蒐集演算法）

引言何為終極演算法？其實就是現在的JVM採用的演算法，並非真正的終極。說不定若干年以後，還會有新的終極演算法，而且幾乎是一定會有，因為LZ相信高人們的能力。那麼分代蒐集演算法是怎麼處理GC的呢？物件

java寫的決策樹演算法（資料探勘演算法）

import java.util.HashMap; import java.util.HashSet; import java.util.LinkedHashSet; import java.util.Iterator; //除錯過程中發現4個錯誤，感謝宇宙無敵的除錯工具——print //1、sele

這是我見過最詳細的十大排序演算法介紹了，沒有之一（十大排序演算法詳解）

> **作者：** C you again，從事軟體開發努力在IT搬磚路上的技術小白 > **公眾號：** 【**[C you again](https://cyouagain.cn/)**】，分享計算機類畢業設計原始碼、IT技術文章、遊戲原始碼、網頁模板、程式人生等等。公眾號回覆【**粉絲

數據結構-第10周作業（二叉樹的創建和遍歷算法）

樹的創建創建 -1 數據結構二叉分享 com jpg 遍歷算法數據結構-第10周作業（二叉樹的創建和遍歷算法）

LeetCode 257. Binary Tree Paths （二叉樹路徑）

res owin arr nod def 所有 fun href binary Given a binary tree, return all root-to-leaf paths. For example, given the following binary tree:

Codeforces 835F Roads in the Kingdom （環套樹DP）

for com ads 題目現在 targe 都是題意 ont 題目鏈接 Roads in the Kingdom 題意給出一個環套樹的結構，現在要刪去這個結構中的一條邊，滿足所有點依然連通。刪邊之後的這個結構是一棵樹，求所有刪邊情況中樹的直徑的最小值。

UVA 122 -- Trees on the level （二叉樹 BFS）

返回錯誤符號 pri false font width else print Trees on the level UVA - 122 解題思路：　　首先要解決讀數據問題，根據題意，當輸入為“()”時，結束該組數據讀入，當沒有字符串時，整個輸入結束。因此可以專門編

Color the ball HDU - 1556 （非線段樹做法）

不同 clu n) color hdu style str () span 題意：在1到n的氣球中，在不同的區域中塗顏色，問每個氣球塗幾次。 #include<cstdio>int num[100010];int main(){ int n, x, y;; wh

【BZOJ2809】[APIO2012] dispatching（左偏樹例題）

點此看題面大致題意：有\(N\)名忍者，每名忍者有三個屬性：上司\(B_i\)，薪水\(C_i\)和領導力\(L_i\)。你要選擇一個忍者作為管理者，然後在所有被他管理的忍者中選擇若干名忍者，使薪水總和不超過預算\(M\)。現讓你最大化被派遣的忍者總數乘以管理者的領導力水平。關於左偏樹這道題

Newcoder 40 F.珂朵莉的約數（數論+莫隊演算法）

Description 珂朵莉給你一個長為 n n n的序列，有

hdu-1150（二分圖+匈牙利演算法）

題目連結：http://acm.hdu.edu.cn/showproblem.php?pid=1150 思路：題目中給出兩個機器A，B；給出k個任務，每個任務可以由A的x狀態或者B的y狀態來完成。完成任務的順序可以任意改變，每次改變一次狀態需要重啟一次機器。將每個狀態看做一個點，每個任務看做兩個狀態

演算法設計與計算（改寫二分搜尋演算法）（教材2-3）

二分搜尋設a[0:n-1]是一個已排好序的陣列。請改寫二分搜尋演算法，使得當搜尋元素x不在陣列中時，返回小於x的最大元素的位置I和大於x的最大元素位置j public static int binarySearch(int []a,int x,int n) {int left=0; int r

城市建設（兩次kruscal演算法）

棟棟居住在一個繁華的C市中，然而，這個城市的道路大都年久失修。市長準備重新修一些路以方便市民，於是找到了棟棟，希望棟棟能幫助他。 C市中有n個比較重要的地點，市長希望這些地點重點被考慮。現在可以修一些道路來連線其中的一些地點，每條道路可以連線其中的兩個地點。另外由於C市有一條河從中穿過，

UCT（信心上限樹演算法）解四子棋問題——蒙特卡羅法模擬人機博弈

相關推薦