周志華《機器學習》讀書筆記（1）

越來越覺得一個碼農應該學點機器學習相關的東西了。希望畢業前能看完這本書。— 2017年11月22日

第一章緒論

資料集中的每條記錄是關於一個時間或者物件的描述，成為一個“示例”（instance）或”樣本“（sample），反應時間或物件在某方面的表現或性質的事項，如“顏色”、“大小”。
- 屬性上的取值成為“屬性值”（attribute value）；
- 屬性張成的空間成為“屬性空間”（attribute space）、“樣本空間”（sample space）或“輸入空間”。
- 把“色澤”、“根蒂”、“敲聲”張成三個座標軸，則他們張成一個用於描述西瓜的三維空間。沒個西瓜都可以在這空間中找到自己的座標位置，對應空間中的一個座標向量。因此我們可以把一個示例成為一個“特徵向量”（feature vector）。
令 D={x1,x2,...,xm} 表示包含m個示例的資料集。每個由d個屬性描述（上面的西瓜資料使用了三個屬性），每個示例xi={xi1;xi2;...;xim} 是d維樣本空間 X 中的一個向量， xi∈X，其中xij是xi在第j個屬性上的取值。d成為樣本xi的”維數”（dimensionality）。
一些名詞。
- 從資料中學得模型的過程稱為“學習”（learning）或“訓練”（training），這個過程通過執行某個學習演算法來完成。
- 訓練過程中使用的資料成為“訓練資料”（training data）。
- 其中每個樣本稱為一個“訓練樣本”（training sample），訓練樣本組成的集合成為“訓練集”（training set）。
- 學得模型對應了關於資料的某種潛在的規律，因此亦稱“假設”（hypothesis）。
- 這種潛在規律自身，則成為“真相”或“真實”（groun-truth），學習過程就是為了找出或逼近真相。本書有時將模型稱為“學習器”（learner），可看作學習演算法在給定資料和引數空間上的例項化。
學習演算法通常有引數需要設定，使用不同的引數值和訓練資料，將產生不同的結果。
如果要得到一個幫助判斷一個瓜是否“好瓜”的模型，僅有前面的示例是不夠的。要建立這樣“預測”（prediction）的模型。我們需要獲得訓練樣本的“結果資訊”，例如“（（色澤=青綠；根蒂=蜷縮；敲聲=濁響），好瓜）”。這裡關於示例結果的資訊，例如“好瓜”，成為“標記”（label）；擁有了標記資訊的示例，稱為“樣例”（example）。一般地，用(

xi,yi)表示第i個樣例，其中yi∈Y是示例xi的標記，Y是所有標記的集合，亦稱“標記空間”（label space）或“輸出空間”。
分類與迴歸。
- 若我們欲預測的是離散值，例如“好瓜”、“壞瓜”，此類學習任務成為“分類”（classification）。
- 若我們欲預測的是連續值，如西瓜成熟度 0.95、 0.37，此類學習任務成為“迴歸”（regression）。
學得模型後，使用其進行預測的過程成為“測試”（testing），被預測的樣本成為“測試樣本”（testing sample），例如在學得 f 後，對測試例 x，可得到其預測標記y=f(x).
我們還可對西瓜做“聚類”（clustering），即將訓練集中的西瓜分成若干組，每組成為一個“簇”（cluster）；這些自動形成的簇可能對應一些潛在的概念劃分。
根據訓練資料是否擁有標記資訊，學習任務大致可分為兩大類：
- 監督學習（supervised learning），如分類和迴歸。
- 無監督學習（unsupervised learning），如聚類。
歸納（induction）與演繹（deduction）。
- 歸納是特殊到一般的“泛化”（generalization）過程。
- 演繹是一般到特殊的“特化”（specialization）過程。
可能存在多個假設與訓練集一直，即存在一個與訓練集一致的“假設集合”，我們稱之為“版本空間”（version space）。
歸納偏好。假如在一個版本空間中，有三個與訓練集一致的假設，但它們對應的模型在面對新樣本的時候，卻會產生不同的輸出。但對於一個具體的學習演算法而言，他必須產生一個模型，這時演算法本身的“偏好”就起關鍵作用。機器學習演算法在學習過程中對某種型別假設的偏好，成為“歸納偏好”（inductive bias），簡稱“偏好”。

第一章習題

1.1

這裡寫圖片描述

第二章模型評估與選擇

分類錯誤的樣本數 a 佔樣本總數 m 的比例 E=a/m 成為“錯誤率”（error rate）， 1−a/m 稱為精度（1-錯誤率）。
學習器的預測輸出與樣本的真實輸出之間的差異稱為“誤差”（error）。
學習器在訓練集上的誤差稱為“訓練誤差”（training error）或“經驗誤差”（empirical error），在新樣本上的誤差稱為“泛化誤差”（generalization error）（泛化誤差應儘可能小）。
當學習器把訓練樣本學得“太好”了的時候，很可能已經把訓練樣本自身的一些特點當作所有潛在樣本都會具有的一般性質，倒是泛化效能下降，該現象稱為“過擬合”（overfitting）【通俗理解為過於嚴格，誤添加了不必要的特性】。相對的是“欠擬合”（underfitting），對訓練樣本的一般性質尚未學好。
學習能力過於強大，以至於把訓練樣本所包含的不太一般的特性學到了，會導致過擬合。
學習能力過於低下，則會導致欠擬合。
欠擬合較易克服，例如在決策樹學習中擴充套件分支，神經網路學習中增加訓練輪數等。過擬合則較麻煩，且無法徹底避免，只能“緩解”，減少其風險。
測試樣本應儘可能不出現在訓練集中，避免得到過於樂觀的估計結果。
當只有一個內含m個樣例資料集D={(x1,y1),(x2,y2),...,(xm,ym)}時，有以下方法作評估處理。
- “留出法”（hold-out）直接將資料集劃分為兩個互斥的集合，其中一個集合作為訓練集S，另一個作為測試集T，即 D=S∪T,S∩T=∅，用S訓練出模型後，用T來評估其測試誤差，作為對泛化誤差的估計。
- “交叉驗證法”（cross validation）先將資料集D劃分為k個大小相似的互斥子集，即D=D1∪D2∪...∪Dk,Di∩Dj=∅(i≠j)，每個子集Di都儘可能保持資料分佈的一致性，k最常取的值是10，此時稱為10折交叉驗證。把D劃分成10個互斥子集，每次取其中9個作為訓練集，剩下一個作為測試集，得到10個測試結果。最後將10個測試結果求平均值返回最終結果。留一法（Leave-One-Out）是特殊的交叉驗證發，k=m，每次只用一個樣本來驗證，但缺點是複雜度太高，訓練出來的模型達m個。
- 自助法（boosttrapping）。給包含m個樣本的資料集D，我們對他進行取樣產生資料集D′（一開始D′是空的）：每次隨機從D中【不取出地】挑選一個樣本，將其拷貝放入D′，重複m次，這樣m次下來，樣本始終沒被採到的概率是(1−1m)m，取極限得 limx→+∞(1−1m)m→1e≈0.368，通過自主取樣,初始資料集中約有
  
  相關推薦
  
  機器學習讀書筆記（四）樸素貝葉斯基礎篇之網站賬號分類
  
  pan 技巧 nbsp 增強就是使用分類問題預測結果一、條件概率在學習計算p1和p2概率之前，我們需要了解什麽是條件概率，就是指在事件B發生的情況下，事件A發生的概率，用P(A|B)來表示。根據文氏圖，可以很清楚地看到在事件B發生的情況下，事件A發
  
  機器學習讀書筆記（三）決策樹基礎篇之從相親說起
  
  方法事務家裏分類筆記判斷都是 rom tro 一、決策樹決策樹是什麽？決策樹(decision tree)是一種基本的分類與回歸方法。舉個通俗易懂的例子，如下圖所示的流程圖就是一個決策樹，長方形代表判斷模塊(decision block)，橢圓形成代
  
  Python學習讀書筆記（1）
  
  1. 轉義字元必須 ,’\n’,來和變數分開 2. 當Python直譯器讀取原始碼時，為了讓它按UTF-8編碼讀取，檔案開頭寫上這兩行： #!/usr/bin/env python3 # -*- coding: utf-8 -*- 第一行註釋是
  
  CS229機器學習個人筆記（1）——Linear Regression with One Variable
  
  1.Model Representation 第一個學習的演算法：線性迴歸演算法。例子描述：這個例子是預測住房價格的，我們要使用一個數據集，資料集包含俄勒岡州波特蘭市的住房價格。在這裡，我要根據不同房屋尺寸所售出的價格，畫出我的資料集。比方說，如果你朋友的房子是 1250 平方
  
  周志華《機器學習》讀書筆記（1）
  
  越來越覺得一個碼農應該學點機器學習相關的東西了。希望畢業前能看完這本書。— 2017年11月22日第一章緒論資料集中的每條記錄是關於一個時間或者物件的描述，成為一個“示例”（instance）或”樣本“（sample），反應時間或物件在
  
  《機器學習》(周志華)西瓜書讀書筆記(完結)
  
  《機器學習》(周志華)西瓜書讀書筆記(完結) 閱讀目錄第1章緒論第2章模型評估與選擇第3章線性模型第4章決策樹第5章神經網路第6章支援向量機第7章
  
  周志華-機器學習-筆記（五）- 強化學習
  
  #### 任務與獎賞 #### 　　“強化學習”(reinforcement learning)可以講述為在任務過程中不斷摸索，然後總結出較好的完成任務策略。　　強化學習任務通常用馬爾可夫決策過程(Markov Decision Process，簡稱M
  
  周志華機器學習筆記（一）
  
  新人一枚，既是機器學習的初學者，也是首次發部落格。謹以此記錄我的學習體會，做一些總結。望與大家共同學習、共同進步。文中若有內容錯誤或有措詞不嚴謹之處，望大家不吝指出。謝謝！機器學習中的基本概念基本術語根據上圖我們可以用一個三維空間來了解以
  
  《機器學習》(周志華)西瓜書讀書筆記
  
  回到頂部第1章緒論對於一個學習演算法a,若它在某問題上比學習演算法b好,則必然存在另一些問題,在那裡b比a好.即"沒有免費的午餐"定理(No Free Lunch Theorem,NFL).因此要談論演算法的相對優劣,必須要針對具體的學習問題回到頂部第2章模型評估與選擇
  
  周志華機器學習筆記
  
  第1章 1.4歸納偏好學習演算法自身的歸納偏好與問題是否相配，往往會起到決定作用。對於上面這句話：你的輸入資料被怎麼處理，最終得到什麼結果，我認為偏好指的就是這個處理的過程。線性非線性？那些feature忽略掉？怎麼利用這些資料？更具體一些，你用網路處理，還是傳統方法，資料的分佈和你
  
  周志華機器學習筆記
  
  http://blog.sina.cn/dpool/blog/s/blog_cfa68e330102ycy9.html?md=gd https://www.cnblogs.com/shiwanghualuo/p/7192678.html 首先的階段由卷積層和池化層組成，卷積的節點組織在特徵對映塊
  
  [機器學習]ID3決策樹詳細計算流程周志華機器學習筆記原創Excel手算方法
  
  1.用到的主要三條熵公式： 1.1 資訊熵詳情見夏農資訊理論概率越平衡事件所含有的資訊量越大 1.2 條件熵代表某一屬性下不同分類的資訊熵之和 1.3 資訊增益等於資訊熵減去條件熵，從數值上，越大的資訊增益在資訊熵一定的情況下，代表條件熵越小，條件熵越
  
  周誌華《機器學習》筆記（一）緒論
  
  樣本 binary 免費泛化能力概率與統計 class 表示訓練集 ESS 第一章緒論 1、數據集(data set)：機器學習數據的集合； 2、示例/樣本(instance/sample):每條數據描述了一個對象的信息，該對象稱之為示例，一般用x表示； 3、
  
  周志華機器學習總結
  
  Lecture3 線性模型基本形式一般向量形式: 優點: 線性迴歸廣義線性模型對數機率迴歸由對數機率函式確定 $\boldsymbol{\omega}$ 和 $b$
  
  周志華機器學習效能度量
  
  2.5 效能度量效能度量（performance measure）是衡量模型泛化能力的評價標準，在對比不同模型的能力時，使用不同的效能度量往往會導致不同的評判結果。本節除2.5.1外，其它主要介紹分類模型的效能度量。 2.5.1 最常見的效能度量在迴歸任務中，即預測連續值的問題，最常
  
  周志華機器學習
  
  盜用weka 緒論 1.2基本術語學習任務大致分為兩類：監督學習：分類、迴歸無監督學習：聚類泛化：訓練得到的模型適用於新樣本的能力機器學習領域最重要的國際學術會議是國際機器學習會議 (ICML)、國
  
  周志華機器學習讀後總結第10、11章
  
  降維與度量學習什麼是降維學習降維是一種分類演算法，它是一種解決維數災難的重要途徑。例如二維資料經過投影變為一維資料從而更好的表徵資料的特徵，然後再進行識別；這就利用了降維的方法。 K鄰近學習 k近鄰學習是一種監督學習演算法，它給定測試樣本，基於某種距離度量找出與訓練集
  
  機器學習讀書筆記（高斯混合模型GMM與EM）（改）
  
  高斯混合模型（Gaussian mixture model，GMM）是單一高斯概率密度函式的延伸。GMM能夠平滑地近似任意形狀的密度分佈。欲瞭解高斯混合模型，那就先從基礎的單一高斯概率密度函式講起。（數學公式字型太難看了！！！！！！！）注意：這一一篇致力於詳
  
  周志華機器學習讀後總結第三章
  
  線性模型基本形式線性模型試圖學得一個通過屬性的線性組合來進行預測的函式，即f(x)=w1x1+w2x2+…+wdxd+b,w和b學得之後，模型就得以確定，而w直觀表達了各屬性在預測中的重要性。線性迴歸線性迴歸試圖學得一個線性模型以儘可能準確的預測實值輸出標記。線性迴歸
  
  周志華機器學習讀後總結第12、13章
  
  計算學習理論什麼是計算學習理論計算學習理論是關於機器學習的理論基礎，其目的是分析學習任務的困難本質，為學習演算法提供理論保證，並根據分析結果指導演算法設計。泛化誤差和經驗誤差是計算學習理論的兩個重要概念，現實中我們常用經驗誤差作為泛化誤差的近擬。 PAC學習 PAC學

周志華《機器學習》讀書筆記（1）

第一章 緒論

第一章習題

第二章 模型評估與選擇

相關推薦

第一章緒論

第二章模型評估與選擇