集體智慧程式設計chapter5:優化問題

阿新 • • 發佈：2019-01-26

優化問題1：組團旅遊

五個人要乘坐航班去同一個地方，如何安排航班可以使總成本最低
思路：目標函式是一個10維list，[1,4,3,2,7,3,6,3,2,4,5,3]，表示每個人乘坐第幾趟航班往返

優化問題2：學生宿舍優化

10個學生選擇5間宿舍10個床位，每人2個志願，如何安排可以符合多數人的志願
思路：將每個床位看作一個槽，十個學生選擇十個槽

關鍵點

設定初始值
設定成本函式cost，即損失函式

可用演算法

隨機選擇：完全隨機，保留最優解

def randomptimize(domain, costf):
    best = 999999999
    bestr = None
    for 
 i in range(10000):  # 我們打算隨機產生1000次結果，從這1000次結果中選擇一個最好的
        # 很顯然randint是產生在一定範圍內的隨機數,顯然由於下一句右邊等號裡的for，將會產生一個迴圈
        r = [random.randint(domain[j][0], domain[j][1]) for j in range(len(domain))]
        cost = costf(r)

        # 每次得到成本我們都判斷一次，如果更低，我們就置換
        if cost < best:
            best = cost
            bestr = 
 r
    return bestr

爬山法：每次更新一個值，保留最優解，容易陷入區域性最優

def hillclimb(domain, costf):
 # Create a random solution
 sol = [random.randint(domain[i][0], domain[i][1])
        for i in range(len(domain))]
 # Main loop
 while 1:
     # Create list of neighboring solutions
     neighbors = []

     for j in range 
(len(domain)):
         # 對於每個元素+1或者-1
         if sol[j] > domain[j][0]:
             neighbors.append(sol[0:j] + [sol[j] + 1] + sol[j + 1:])
         if sol[j] < domain[j][1]:
             neighbors.append(sol[0:j] + [sol[j] - 1] + sol[j + 1:])

     # See what the best solution amongst the neighbors is
     current = costf(sol)
     best = current
     for j in range(len(neighbors)):
         cost = costf(neighbors[j])
         if cost < best:
             best = cost
             sol = neighbors[j]

     # If there's no improvement, then we've reached the top
     if best == current:
         break
 return sol

模擬退火演算法：即使新的成本更高，也有可能更新最優解，可避免區域性最優

def annealingoptimize(domain, costf, T=10000.0, cool=0.98, step=1):
  # 和爬山法一樣，先產生一個隨機解，然後一切的改變都從這個隨機解開始
  vec = [random.randint(domain[i][0], domain[i][1]) for i in range(len(domain))]

  while T > 0.5:
      # 產生一個隨機數，決定這次改變是改變數列中的哪一個隨機數
      i = random.randint(0, len(domain) - 1)

      # 選擇一個改變的方向，也就是說是增加還是減少
      dir = random.randint(-step, step)

      # 複製隨機解，然後對隨機解進行改變，然後判斷到底新的解好，還是後來產生的解好
      vecb = vec[:]
      vecb[i] += dir
      # 這一段主要還是不讓它超不過了最大最小值的限制
      if vecb[i] < domain[i][0]:
          vecb[i] = domain[i][0]
      elif vecb[i] > domain[i][1]:
          vecb[i] = domain[i][1]

      # 計算新產生的兩次解的成本，然後對成本進行比較
      ea = costf(vec)
      eb = costf(vecb)

      # or後面：表示接受更差的結果。仔細想想，原來概率的表示是如此完成的，注意前一個random()產生的數是在0到1之間。
      if (eb < ea or random.random() < pow(math.e, -(eb - ea) / T)):
          vec = vecb

          # 沒經過一次迴圈，改變溫度，溫度一改變，就會改變迴圈的次數和接受更差解的概率
      # 按一定比例降溫
      T = T * cool

  return vec

遺傳演算法：交叉變異，每次保留一定的最優序列

def geneticoptimize(domain, costf, popsize=50, step=1, mutprob=0.2, elite=0.2, maxiter=100):
  # 方法中還在定義方法
  # 變異操作
  def mutate(vec):
      i = random.randint(0, len(domain) - 1)
      # 完成第增加或減少的概率各一半
      if random.random() < 0.5 and vec[i] > domain[i][0]:
          return vec[0:i] + [vec[i] - step] + vec[i + 1:]
      elif vec[i] < domain[i][1]:
          return vec[0:i] + [vec[i] + step] + vec[i + 1:]
      else:
          return vec
      # 交叉操作：貌似用python程式設計是好快的說，我感覺比較複雜的句子只要兩句麼，還是我c/c++沒學好

  def crossover(r1, r2):
      # 為什麼減2，其實想把這個一個數字列表劃分為兩段，再各取一半
      i = random.randint(1, len(domain) - 2)
      return r1[0:i] + r2[i:]

  # 構造初始種群
  pop = []
  for i in range(popsize):
      vec = [random.randint(domain[i][0], domain[i][1]) for i in range(len(domain))]
      pop.append(vec)

      # 每一代有多少優勢物種，我們需要保留
  topelite = int(elite * popsize)
  # 主迴圈
  for i in range(maxiter):
      # print pop #但是如果不加這句會使下一句出現一個bug，就是傳過去的v是None,但是我講pop全部打印出來的話，又沒有問題
      scores = [(costf(v), v) for v in pop]  # 列表裡面，每一個元素都是一個元組，每一個元組是由一個數字和一個列表構成
      scores.sort()
      ranked = [v for (s, v) in scores]

      # 從中選擇我們覺得優勢的物種，然後保留
      pop = ranked[0:topelite]

      # 如果種群數量不夠，那麼我們使用變異或者配對，產生新的後代個體
      while len(pop) < popsize:
          # 變異的概率，這是由我們設定的,雖然這裡是變異和配對只能選擇其一，但是我認為是可以共同進行的
          if random.random() < mutprob:  # 如果這樣做，就是變異的少，交叉的多吧
              # 變異
              c = random.randint(0, topelite)  # 注意是從優秀的子代中選出一個進行變異
              pop.append(mutate(ranked[c]))
          else:
              c1 = random.randint(0, topelite)  # 從優秀的子代中選擇
              c2 = random.randint(0, topelite)  # 從優秀的子代中選擇
              pop.append(crossover(ranked[c1], ranked[c2]))

      print(scores[0][0])  # 注意列印的是成本

  return scores[0][1]  # 這裡返回的是航班序列

集體智慧程式設計chapter5:優化問題

優化問題1：組團旅遊五個人要乘坐航班去同一個地方，如何安排航班可以使總成本最低思路：目標函式是一個10維list，[1,4,3,2,7,3,6,3,2,4,5,3]，表示每個人乘坐第幾趟航班往返優化問題2：學生宿舍優化 10個學生選擇5間宿舍10個床位，每

集體智慧程式設計5-優化演算法-爬山法、模擬退火、遺傳演算法

最優化演算法的思想在於，我們往往並不需要得到最優解，而是得到一個近似最優解，來節省時間的開銷。 * 隨機演算法為了解決遍歷引發的時間問題，有時候在沒有嚴格要求的情況下，可以通過隨機去一定的點，比較這些取的點數，總能找到一個近似最優解的情況。

集體智慧程式設計——優化搜尋演算法：爬山法，模擬退火演算法，遺傳演算法-Python實現

在優化問題中，有兩個關鍵點代價函式：確定問題的形式和規模之後，根據不同的問題，選擇要優化的目標。如本文涉及的兩個問題中，一個優化目標是使得航班選擇最優，共計12個航班，要使得總的票價最少且每個人的等待時間之和最小。第二個問題是學生選擇宿舍的問題，每個學生可

《集體智慧程式設計》摘要

提供推薦皮爾遜相關度評價適合於資料不規範的情況比如某一影評者的打分總是對於平均水平偏離很大（比如總是偏低），此時用歐幾里得距離計算出來的差別不大，無法很好地分類原理是根據不同人的評分將影片對映為空間中的點，然後對於大量的點擬合一

《集體智慧程式設計》閱讀筆記

本書從實際業務、應用場景出發，介紹機器學習演算法。提供推薦主要從如何尋找相似使用者、通過相似使用者對使用者進行商品推薦以及相似商品進行講述。每一位使用者對部分商品如影片有評價分數，根據兩個人對同一商品的打分情況可以判斷兩使用者相似情況。判斷相似程度有歐幾里得距離、皮爾遜相關

《集體智慧程式設計》學習筆記（一）

第二章提供推薦 1、蒐集偏好先構造一個簡單的資料集： #使用者對不同電影的評分 critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman

C4.5決策樹學習(基於集體智慧程式設計程式碼)

我在上一篇實驗報告中有總結了ID3,C4.5,CART各決策樹的不同,其中,有關於ID3和C4.5的不同,見文章. 上篇文章可能並沒有側重於這兩種的不同,於是我仔細研究了一下,並採用《集體智慧程式設計》一書中的有資訊熵和決策樹的程式碼,見github地址,自行進行資訊增益率的計算. 我的理解

集體智慧程式設計--提供過濾

# 基於物品進行過濾： # 首先把｛使用者1｛物品A：得分，物品B：得分。。。｝｝轉換為｛物品A｛使用者1：得分，使用者2：得分。。。｝｝ # 根據上面轉化的表格，可以根據歐式距或者皮爾遜來計算出不同物體之間的相似度（具體計算是計算不同物體同一個使用者的得分差值的平方和的根， #

看《集體智慧程式設計》二三章總結

第二章提供推薦推薦的方式主要分為兩類，一種是基於物品的推薦，一種是基於使用者的推薦。基於物品的推薦，就是計算物品之間的相似度，例如物品A和物品B相似，假如使用者購買了物品A，則使用者極有可能購買物品B。基於使用者的推薦就是找到相似的使用者，例如“使用者A購買了商品A和商

集體智慧程式設計-皮爾遜相關係數程式碼理解

剛開始看關於皮爾遜相關係數計算的程式碼，把我看得是暈頭轉向，不過在學習完概率論的課程後，發現結合公式再來看程式碼就會比較簡單了。期望公式 E(x)=1n∑i=1nxi 方差公式 var(x)=

集體智慧程式設計第四章[搜尋引擎與排名]總結

爬蟲程式我們開啟一個url，返回一個html檔案，它的格式類似下面的內容： <!DOCTYPE html PUBLIC "-//W2C//DTD XHTML 1.0 Transitioln//EN""http://www.w2.org/TR/xhtm

集體智慧程式設計——搜尋與排名-Python實現

學習構建一個簡易的搜尋引擎，步驟如下：網頁抓取：從一個或一組特定的網頁開始，根據網頁內部連結逐步追蹤到其他網頁。這樣遞迴進行爬取，直到到達一定深度或達到一定數量為止。建立索引：建立資料表，包含文件中所有單詞的位置資訊，文件本身不一定要儲存到資料庫中，索引

《集體智慧程式設計》第12章演算法總結個人筆記

第12章演算法總結 12.1 貝葉斯分類器優點：訓練、查詢速度快；支援增量式訓練；易解釋缺點：無法處理基於特徵組合所產生的變化結果 12.2 決策樹分類器優點：易解釋；容易

集體智慧程式設計-K均值聚類程式碼理解

K均值聚類，先人工製造幾個中心點，根據資料尋找距離每個中心點最近的所有例項點，用所有例項點的均值代替中心點，如此反覆，直到所有的例項點都被歸類到正確的中心點。例子對於下面的例項點人工構造兩個中心點，對於每個中心點尋找距離其最近的所有例項點，用距離

讀書筆記---《集體智慧程式設計》第3章：發現群組

1.關於聚類的理解聚類實際上就是分類，對一些樣本（樣品）進行歸類分組。本章第一個例子是對99篇部落格進行聚類，也就是說每一篇部落格便是一個樣本。要分類就要有分類的標準（指標）。比如把人按地區、身高、體重分類，那地區、身高、體重就是指標。抽象地說，對樣本X，設

《集體智慧程式設計》程式碼勘誤：第六章

一：勘誤 classifier類中： def fprob(self, f, cat): if self.catcount(cat) == 0: return 0 #notice: rember change int to double or float

集體智慧程式設計第二三章學習總結

2 基於物品的協同過濾：應用場景，當我們在豆瓣只看過一部看過電影《泰囧》並且認為評分還不錯（此時網站還沒有收集使用者足夠多的資訊，無法用基於使用者的協同過濾推薦），下次登陸豆瓣的時候會推薦《港囧》，這裡使用的方法就是基於物品的協同過濾。假如有很多很多電影，我們找到很多人的觀看記錄和評價記錄。比如電影《港囧》我

【集體智慧程式設計學習筆記】統計訂閱源中的單詞數

幾乎所有的部落格都可以線上閱讀，或者通過RSS訂閱源進行閱讀。RSS訂閱源是一個包含部落格及其所有文章條目資訊的簡單的XML文件。程式中使用了feedparser第三方模組，可以輕鬆地從任何RSS或Atom訂閱源中得到標題、連結和文章的條目。完整程式碼如下：

《集體智慧程式設計》第4章搜尋與排名個人筆記

第4章搜尋與排名 1、基於內容的排名單詞頻度：位於查詢條件中的單詞在文件中出現的次數能有助於我們判斷文件的相關程度。文件位置：文件的主題有可能會出現在靠近文件的開始處。搜尋引擎可以對待查單詞在文件中出現越早的情況給予越高的評價。單詞距離：如果查

“集體智慧程式設計”之第七章：決策樹

什麼是決策樹？如果將決策樹和上一章的分類器一起講述，那麼決策樹這種演算法也是用於對物品分類的，書有一個非常簡單的例子，能幫助我理解什麼是決策樹。給你一個水果，你可以通過以下方式判斷出這是一個什麼水果。可以看出，決策樹上就是一個又一個

集體智慧程式設計chapter5:優化問題

優化問題1：組團旅遊

優化問題2：學生宿舍優化

關鍵點

可用演算法

相關推薦