《集體智慧程式設計》摘要

阿新 • • 發佈：2018-11-12

提供推薦

皮爾遜相關度評價
- 適合於資料不規範的情況
- 比如某一影評者的打分總是對於平均水平偏離很大（比如總是偏低），此時用歐幾里得距離計算出來的差別不大，無法很好地分類
- 原理是根據不同人的評分將影片對映為空間中的點，然後對於大量的點擬合一條線，比較不同人的線的相關度

發現群組

無監督學習的目的是發現數據包含的內在結構
K-均值聚類
- 輸入資料一般需要做縮放，如標準化
  - 原理：K均值是建立在距離度量上的，因此不同變數間如果維度差別過大，可能會造成少數變數“施加了過高的影響而造成壟斷”。
- 優點：執行速度快，能夠處理的資料量大，且易於理解。
- 缺點：演算法效能有限，在高維上可能不是最佳選項。

搜尋與排名

一些關於有效查詢到的思想
- 單詞頻度
  - 一個網站中包含關鍵字的數量越多，越有可能是想要查詢的網站
- 單詞位置
  - 對於一個相關網頁，我們搜尋的關鍵字往往會出現在靠近網頁開始的位置
- 單詞距離
  - 當有多個關鍵詞時，尋找單詞間距離更近的網站往往是有意義的
pagerank演算法
- 一個網頁的重要性取決於指向該網站的所有其他網站的重要性
- 決定因素：
  - 指向該網站的其他網站的PageRank值
  - 每個指向該網站的其他網站的總link數
    - link越多值越小
  - 阻尼因子
    - PageRank計算的是某個使用者在任意點選連線後到達某一網站的可能性，理論來說，經過無限次點選後會到達任意網站，但是大多數人在數次點選後會停止，於是設計了阻尼因子的概念
- 初始化時設定一個初始值（比如1.0），經過數次迭代後會趨於穩定值（就是PageRank值）

優化演算法

將要解決的問題轉化為一個成本函式，而我們的任務就是是的成本函式最小
最簡單的方法就是隨機搜尋，他是我們評估其他演算法的基線（base line）
爬山演算法
- 類似於梯度下降法
- 缺點在於可能求得的區域性最小值而不是全域性最小值
- 可以用隨機重複爬山法改進
模擬退火演算法
- 設定一個接受概率函式，他與自定的溫度變數以及成本值相關。
- 當溫度高的時候，成本值稍大的解也可能接受（所以在初始階段解可能反而變差），但是溫度在不斷迭代中不斷下降，而溫度低的時候只有成本值很低的解才能被接受
遺傳演算法
- 先隨機生成一組解，稱之為種群，計算每個個體的成本函式，得到一個有序列表
- 精英選拔法
  - 將成本最低的一部分加入新的種群中，剩餘的由修改後的全新解代替
- 兩種修改解的方法
  - 變異
    - 將現有解做微小隨機的改動
  - 交叉
    - 選取最優解中的兩個按照某種方式進行結合
  - 通常變異的概率很小而交叉的概率很大
- 結束指令
  - 在經過一段時間的迭代後，族群任然保持穩定，此時可以停止了

文件過濾

樸素的貝葉斯分類器
- 假設每個單詞出現的概率是互相獨立的
- 但實際上是不成立的，但是我們可以將計算結果進行比較，觀察那個分類的概率更大
- 為了避免重要郵件的誤刪，我們可以為每個分類定義一個最小閾值，如果計算出來的結果都小於這個閾值，我們就劃分到未知分類中
- 這種演算法的優勢主要在於訓練所需的時間和記憶體較少
費舍爾分類器
- 不懂 (–_–!)

決策樹建模

決策樹實際上就是根據資料的feature的一系列的if…then…結構，最終得到輸出
- 輸出可以是分類或者數值
決策樹的難點在於判斷條件（feature）選擇的先後
- 舉例，為什麼以A條件作為根（即第一個判斷條件），為什麼條件B在條件C前判斷
- 挑選的方法有基尼不純度，熵增益等
  - 實質是選取儘可能將同種結果放在一個分類的條件
為了避免過擬合以及減少收集資訊的難度，我們往往採取剪枝的方法忽略那些對結果影響不大的feature
決策樹的優點在於可以直觀的理解判斷的理由和過程，不像深度學習是個黑箱
缺點則在於對於輸出結果過多的情況構建太複雜，還有就是容易被攻擊
- 這裡的攻擊是指人為的改變一些特徵，使得分類器判斷錯誤。常見於垃圾郵件躲避檢測中。因為決策樹最終在底層判斷是基於單個條件的，攻擊者往往只需要改變很少的特徵就可以逃過監測。

構建價格模型

KNN（K最鄰近演算法）
- K過小則容易受到噪聲和錯誤資料的影響，過大則容易將不相關資料也包括進去
- 可以在無需重新計算的情況下加入新的資料，適合資料量很大的情況

核方法和SVM（支援向量機）

普通的SVM分類超平面只能應對線性可分的情況，而對於線性不可分的情況我們則需要引入一個Kernel，這個Kernel可以把資料集從低維對映到高維，使得原來線性不可分的資料集變得線性可分
- 其實就是深度學習裡的啟用函式
我們想要用一個超平面（二維為一條線）將資料分類，但是滿足條件的超平面有很多，SVM就是找出其中最好的一個
- 方法是儘可能的使最靠近分離超平面的資料與超平面的距離變大
- 我們不需要考慮所有資料，只需要考慮靠近平面的那些資料，這些資料又稱為支援向量

尋找獨立特徵

從嘈雜的背景聲中提取人聲，影象壓縮等實質是特徵提取
常用方法是NMF，即非負矩陣分解
- 顧名思義，就是將資料已矩陣的顯示呈現，然後分解為特徵矩陣和權重矩陣

《集體智慧程式設計》摘要

提供推薦皮爾遜相關度評價適合於資料不規範的情況比如某一影評者的打分總是對於平均水平偏離很大（比如總是偏低），此時用歐幾里得距離計算出來的差別不大，無法很好地分類原理是根據不同人的評分將影片對映為空間中的點，然後對於大量的點擬合一

《集體智慧程式設計》閱讀筆記

本書從實際業務、應用場景出發，介紹機器學習演算法。提供推薦主要從如何尋找相似使用者、通過相似使用者對使用者進行商品推薦以及相似商品進行講述。每一位使用者對部分商品如影片有評價分數，根據兩個人對同一商品的打分情況可以判斷兩使用者相似情況。判斷相似程度有歐幾里得距離、皮爾遜相關

《集體智慧程式設計》學習筆記（一）

第二章提供推薦 1、蒐集偏好先構造一個簡單的資料集： #使用者對不同電影的評分 critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman

C4.5決策樹學習(基於集體智慧程式設計程式碼)

我在上一篇實驗報告中有總結了ID3,C4.5,CART各決策樹的不同,其中,有關於ID3和C4.5的不同,見文章. 上篇文章可能並沒有側重於這兩種的不同,於是我仔細研究了一下,並採用《集體智慧程式設計》一書中的有資訊熵和決策樹的程式碼,見github地址,自行進行資訊增益率的計算. 我的理解

集體智慧程式設計--提供過濾

# 基於物品進行過濾： # 首先把｛使用者1｛物品A：得分，物品B：得分。。。｝｝轉換為｛物品A｛使用者1：得分，使用者2：得分。。。｝｝ # 根據上面轉化的表格，可以根據歐式距或者皮爾遜來計算出不同物體之間的相似度（具體計算是計算不同物體同一個使用者的得分差值的平方和的根， #

看《集體智慧程式設計》二三章總結

第二章提供推薦推薦的方式主要分為兩類，一種是基於物品的推薦，一種是基於使用者的推薦。基於物品的推薦，就是計算物品之間的相似度，例如物品A和物品B相似，假如使用者購買了物品A，則使用者極有可能購買物品B。基於使用者的推薦就是找到相似的使用者，例如“使用者A購買了商品A和商

集體智慧程式設計-皮爾遜相關係數程式碼理解

剛開始看關於皮爾遜相關係數計算的程式碼，把我看得是暈頭轉向，不過在學習完概率論的課程後，發現結合公式再來看程式碼就會比較簡單了。期望公式 E(x)=1n∑i=1nxi 方差公式 var(x)=

集體智慧程式設計第四章[搜尋引擎與排名]總結

爬蟲程式我們開啟一個url，返回一個html檔案，它的格式類似下面的內容： <!DOCTYPE html PUBLIC "-//W2C//DTD XHTML 1.0 Transitioln//EN""http://www.w2.org/TR/xhtm

集體智慧程式設計——搜尋與排名-Python實現

學習構建一個簡易的搜尋引擎，步驟如下：網頁抓取：從一個或一組特定的網頁開始，根據網頁內部連結逐步追蹤到其他網頁。這樣遞迴進行爬取，直到到達一定深度或達到一定數量為止。建立索引：建立資料表，包含文件中所有單詞的位置資訊，文件本身不一定要儲存到資料庫中，索引

《集體智慧程式設計》第12章演算法總結個人筆記

第12章演算法總結 12.1 貝葉斯分類器優點：訓練、查詢速度快；支援增量式訓練；易解釋缺點：無法處理基於特徵組合所產生的變化結果 12.2 決策樹分類器優點：易解釋；容易

集體智慧程式設計-K均值聚類程式碼理解

K均值聚類，先人工製造幾個中心點，根據資料尋找距離每個中心點最近的所有例項點，用所有例項點的均值代替中心點，如此反覆，直到所有的例項點都被歸類到正確的中心點。例子對於下面的例項點人工構造兩個中心點，對於每個中心點尋找距離其最近的所有例項點，用距離

讀書筆記---《集體智慧程式設計》第3章：發現群組

1.關於聚類的理解聚類實際上就是分類，對一些樣本（樣品）進行歸類分組。本章第一個例子是對99篇部落格進行聚類，也就是說每一篇部落格便是一個樣本。要分類就要有分類的標準（指標）。比如把人按地區、身高、體重分類，那地區、身高、體重就是指標。抽象地說，對樣本X，設

集體智慧程式設計5-優化演算法-爬山法、模擬退火、遺傳演算法

最優化演算法的思想在於，我們往往並不需要得到最優解，而是得到一個近似最優解，來節省時間的開銷。 * 隨機演算法為了解決遍歷引發的時間問題，有時候在沒有嚴格要求的情況下，可以通過隨機去一定的點，比較這些取的點數，總能找到一個近似最優解的情況。

《集體智慧程式設計》程式碼勘誤：第六章

一：勘誤 classifier類中： def fprob(self, f, cat): if self.catcount(cat) == 0: return 0 #notice: rember change int to double or float

集體智慧程式設計第二三章學習總結

2 基於物品的協同過濾：應用場景，當我們在豆瓣只看過一部看過電影《泰囧》並且認為評分還不錯（此時網站還沒有收集使用者足夠多的資訊，無法用基於使用者的協同過濾推薦），下次登陸豆瓣的時候會推薦《港囧》，這裡使用的方法就是基於物品的協同過濾。假如有很多很多電影，我們找到很多人的觀看記錄和評價記錄。比如電影《港囧》我

【集體智慧程式設計學習筆記】統計訂閱源中的單詞數

幾乎所有的部落格都可以線上閱讀，或者通過RSS訂閱源進行閱讀。RSS訂閱源是一個包含部落格及其所有文章條目資訊的簡單的XML文件。程式中使用了feedparser第三方模組，可以輕鬆地從任何RSS或Atom訂閱源中得到標題、連結和文章的條目。完整程式碼如下：

《集體智慧程式設計》第4章搜尋與排名個人筆記

第4章搜尋與排名 1、基於內容的排名單詞頻度：位於查詢條件中的單詞在文件中出現的次數能有助於我們判斷文件的相關程度。文件位置：文件的主題有可能會出現在靠近文件的開始處。搜尋引擎可以對待查單詞在文件中出現越早的情況給予越高的評價。單詞距離：如果查

“集體智慧程式設計”之第七章：決策樹

什麼是決策樹？如果將決策樹和上一章的分類器一起講述，那麼決策樹這種演算法也是用於對物品分類的，書有一個非常簡單的例子，能幫助我理解什麼是決策樹。給你一個水果，你可以通過以下方式判斷出這是一個什麼水果。可以看出，決策樹上就是一個又一個

集體智慧程式設計學習筆記（2.1）提供推薦

第二章提供推薦（一）協作型過濾 Collaborative Filtering 如果想了解商品、影片或網站的推薦性資訊，最沒有技術含量的方法是向朋友們詢問，其中一部分人的品味會比其他人高一些，通過觀察這些人是否通常也和我們一樣喜歡同樣的東西，可以逐步對這些情況有所瞭解

【集體智慧程式設計】第三章、發現群組

一、前言本章中，我們將學習到如下內容：從各種不同的來源中構造演算法所需的資料；兩種不同的聚類演算法；更多有關距離度量（distance metrics）的知識；簡單的圖形視覺化程式碼，用以觀察所生成的群組；最後，我們還會學習如何將異常複雜的資料集投影到二維空間中。聚類

《集體智慧程式設計》摘要

提供推薦

發現群組

搜尋與排名

優化演算法

文件過濾

決策樹建模

構建價格模型

核方法和SVM（支援向量機）

尋找獨立特徵

相關推薦