學習筆記 | 機器學習-周志華 | 2

阿新 • • 發佈：2018-12-22

1.3 假設空間

歸納 (induction)與演繹 (deduction)是科學推理的兩大基本手段。
歸納：從特殊到一般的"泛化" (generalization)過程，即從具體的事實歸結出一般性規律。
演繹：從一般到特殊的"特化" (specialization)過程，即從基礎原理推演出具體狀況。
例：

演繹：在數學公理系鏡中，基於一組公理和推理規則推匯出與之相洽的定理。
而"從樣例中學習"顯然是一個歸納的過程，因此亦稱"歸納學習" (inductive learning).
歸納狹義：狹義的歸納學習要求從訓練資料中學得概念 (concept) ，因此亦稱為"概念學習"或"概念形成"。
廣義的歸納學習大體相當於從樣例中學習。
概念學習目前研究、應用都比較少，因為要學得泛化效能好且語義明確的概念很難。現實中常用技術大多產生“黑箱”模型。
概念學習中最基本的是布林概念學習，即對"是" "不是"這樣的可表示為 0/1 布林值的目標概念的學習。
布林表示式寫出來則是"好瓜 ↔(色澤=?) ^ (根蒂 = ?) ^ (敲聲 = ?)"，？表示尚未確定的取值，我們的任務就是通過對錶1.1的訓練集進行學習把"?"確定下來。
可以把學習過程看作一個在所有假設(hypothesis)組成的空間中進行搜尋的過程，搜尋目標是找到與訓練集"匹配"(fit) 的假設.
萬用字元：好瓜 ↔(色澤=*) ^ (根蒂 = ?) ^ (敲聲 = ?)
∮表示不存在“好瓜 ”
搜尋策略：自頂向下、從一般到特殊、自底向上、從特殊到一半。
搜尋過程中可以不斷刪除與正例不一致的假設、和(或)與反例一致的假設.最終將會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設，這就是我們學得的結果。
注意的是，現實問題中我們常面臨很大的假設空間?但學習過程是基於有限樣本訓練集進行的，因此，可能有多個假設與訓練集一致，即存在著一個與訓練集一致的"假設集合"，我們稱之為"版本空間" (version space). 例如，在西瓜問題中，與表1. 1 訓練集所對應的版本空間如圖1.2 所示.

學習筆記 | 機器學習-周志華 | 2

1.3 假設空間歸納 (induction)與演繹 (deduction)是科學推理的兩大基本手段。歸納：從特殊到一般的"泛化" (generalization)過程，即從具體的事實歸結出一般性規律。演繹：從一般到特殊的"特化" (specializa

《機器學習-西瓜書》-周志華-學習筆記系列（1）--序言、前言和主要符號表

寫在前面的話：自己於今天（2018年9月4日）看完了機器學習-西瓜書-周志華-清華大學出版社書籍，對於這本書的評價就是：好書，自己可以在每一個字裡行間感受到作者的用心，每當看到一個不懂的名詞的時候，作者都會用通俗的例子來講解，遇到公式的時候，也會進行推導，側邊欄的一些說明資訊往往能帶給自己

學習筆記 | 機器學習-周志華 | 5

第二章模型評估與選擇 2.1 經驗誤差與過擬合 "錯誤率" (error rate) ，即如果在 m 個樣本中有 α 個樣本分類錯誤，則錯誤率 E= α/m; 1 一 α/m 稱為**“精度” (accuracy)** ，即"精度 =1 - 錯誤率" 更一般地，

學習筆記 | 機器學習-周志華 | 4

習題版本空間：存在著一個與訓練集一致的“假設集合”。此時，只有1, 4兩個樣例。求版本空間的步驟： ①寫出假設空間：先列出所有可能的樣本點（即特徵向量）（即每個屬性都取到所有的屬性值） ②對應著給出的已知資料集，將與正樣本不一致的、與負樣本一致的假設刪除。 ③得出與

學習筆記 | 機器學習-周志華 | 3

1.4 歸納偏好版本空間中的多個假設可能會產生不同的輸出：對於同一個樣本，產生不同結果。這時，學習演算法本身的"偏好"就會起到關鍵的作用. 機器學習演算法在學習過程中對某種型別假設的偏好，稱為"歸納偏好" (inductive bias),或簡稱為"偏好"。任何

學習筆記 | 機器學習-周志華 | 1

第一章緒論機器學習所研究的主要內容，是關於在計算機上從資料中產生模型（model）的演算法，即 “學習演算法”（learning algorithm） . 基本術語假定我們收集了一批關於西瓜的資料，例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響)， (色澤=烏黑;根蒂:稍蜷;

機器學習西瓜書（周志華）學習筆記（1）-緒論

基本術語資料集（data set）：一組記錄的集合。例如：（色澤=青綠；根蒂=稍蜷；敲聲=沉悶）。樣本（sample）：資料集中的每條記錄，它是關於一個事件或物件的描述。又稱示例（instance）。例如：色澤=青綠。屬性（attribute）：反映事件或物件在某

機器學習（南京大學周志華的《機器學習》和李航的《統計學習方法》）

機器學習的三種不同方法：一、監督學習（supervised learning）——對未來事件進行預測。使用有類標的資料構建資料模型。然後使用經訓練得到的模型對未來的資料進行預測。主要分為兩類： 1.利用分類對類標進行預測 2.使用迴歸預測連續輸出值二、無監

機器學習基礎學習筆記——機器學習基礎介紹

機器學習基礎介紹機器學習（Machine Learing,ML）概念：多領域交叉學科，設計概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識

[學習筆記]機器學習——演算法及模型（五）：貝葉斯演算法

傳統演算法（五）貝葉斯演算法一、貝葉斯定理簡介貝葉斯定理是18世紀英國數學家托馬斯·貝葉斯（Thomas Bayes）提出得重要概率論理論；貝葉斯方法源於他生前為解決一個“逆概”問題寫的一篇文章

人工智障學習筆記——機器學習(13)LLE降維

一.概念 LLE：Locally linear embedding(區域性線性嵌入演算法)是一種非線性降維演算法，它能夠使降維後的資料較好地保持原有流形結構。LLE可以說是流形學習方法最經典的工作之一。和傳統的PCA，LDA等關注樣本方差的降維方法相比，LLE關注於降維時保

人工智障學習筆記——機器學習(4)支援向量機

一.概念支援向量機(Support Vector Machine)，簡稱SVM。是常見的一種判別方法。在機器學習領域，是一個有監督的學習模型，通常用來進行模式識別、分類以及迴歸分析。 SVM的主要思想可以概括為兩點： 1.它是針對線性可分情況進行分析，對於線性不可分的情況

機器學習筆記——機器學習建議與誤差分析

建議在實踐過程中我們經常會發現我們的建模不合適，那麼這種情況我們應該對我們模型的引數進行調整呢評估假設我們首先要做的就是對我們建立的模型進行評估，來判斷模型擬合是否合適。我們將利用訓練集求出來的網路引數θ應用在測試集上得到的誤差叫做測試集誤差，這個誤差越小代表建模越合適

人工智障學習筆記——機器學習(12)LDA降維

一.概念LDA：Linear Discriminant Analysis (也有叫做Fisher Linear Discriminant)。與PCA一樣，是一種線性降維演算法。不同於PCA只會選擇資料變化最大的方向，由於LDA是有監督的（分類標籤），所以LDA會主要以類別為

人工智障學習筆記——機器學習(11)PCA降維

一.概念 Principal Component Analysis(PCA)：主成分分析法，是最常用的線性降維方法，它的目標是通過某種線性投影，將高維的資料對映到低維的空間中表示，即把原先的n個特徵用數目更少的m個特徵取代，新特徵是舊特徵的線性組合。並期望在所投影的維度上資

Hands on Machine Learning with Sklearn and TensorFlow學習筆記——機器學習概覽

一、什麼是機器學習？　　計算機程式利用經驗E（訓練資料）學習任務T（要做什麼，即目標），效能是P（效能指標），如果針對任務T的效能P隨著經驗E不斷增長，成為機器學習。【這是湯姆米切爾在1997年定義】　　大白話：類比於學生學習考試，你先練習一套有一套的模擬卷（這就相當於訓練資料），在這幾

人工智障學習筆記——機器學習(7)FM/FFM

一.概念 FM(分解機模型)和FFM(基於域的分解機模型)是最近幾年提出的模型，主要用於預估CTR/CVR，憑藉其在資料量比較大並且特徵稀疏的情況下，仍然能夠得到優秀的效能和效果的特性，屢次在各大公司舉辦的CTR預估比賽中獲得不錯的戰績。二.原理 FM（Factoriz

R語言學習筆記-機器學習1-3章

在折騰完爬蟲還有一些感興趣的內容後，我最近在看用R語言進行簡單機器學習的知識，主要參考了《機器學習-實用案例解析》這本書。這本書是目前市面少有的，純粹以R語言為基礎講解的機器學習知識，書中涉及11個案例。分12章。作者備註以及程式碼部分都講得比較深。不過或許因為出書較早，在資料處理方面，他使用更多的是pl

人工智障學習筆記——機器學習(15)t-SNE降維

一.概念 t-SNE(t分佈隨機鄰域嵌入)是一種用於探索高維資料的非線性降維演算法。它將多維資料對映到適合於人類觀察的兩個或多個維度。 t-SNE主要包括兩個步驟：第一、t-SNE構建一個高維物件之間的概率分佈，使得相似的物件有更高的概率被選擇，而不相似的物件有較低的概率被

Tensorflow學習筆記:機器學習必備API

前一節介紹了一些最基本的概念和使用方法。因為我個人的最終目的還是在深度學習上，所以一些深度學習和機器學習模組是必須要了解的，這其中包括了tf.train 、tf.contrib.learn、還

學習筆記 | 機器學習-周志華 | 2

1.3 假設空間

相關推薦