1. 程式人生 > >機器學習-周志華-第一章

機器學習-周志華-第一章

緒論

1.1 引言

什麼是機器學習?

它是一門致力於研究如何通過計算的手段,利用經驗來改善系統自身效能的一門學科。所研究的主要內容是計算機如何通過資料產生模型,即學習演算法。有了學習演算法後,當我們給它提供經驗資料時就能基於這些資料產生模型。在面對新資料時學習演算法會給我們相應的判斷。經驗通常以資料的形式存在

名詞理解

模型:一類問題的解題步驟

演算法:一個問題的解題步驟

學習演算法:由資料產生的一類問題的解題步驟。通過學習演算法從資料中獲得模型

ps:阿爾法狗零自學三天以100:0戰勝阿爾法狗。這裡阿爾法狗零利用人類經驗提升自身能力,這就是機器學習

 

1.2 基本術語

資料集

示例

屬性、特徵

屬性空間、樣本空間、輸入空間:資料的維度空間

特徵向量:

學習、訓練:從資料中學得模型的過程

訓練資料:訓練過程中使用的資料

訓練樣本:

訓練集:多個訓練樣本的集合

假設:學到的模型

真相:資料某種潛在的規律

標記:示例的結果資訊

樣例:有標記資訊的示例

標記空間、輸出空間:(x,y),y:所有標記的集合

 分類:預測值是離散的學習任務

二分類:只涉及兩個類別的分類

多分類:

迴歸:預測值是連續的學習任務

聚類:將訓練集中的示例分組

監督學習:訓練資料中擁有標記資訊的學習任務 。如分類和迴歸

無監督學習:訓練資料中不包含標記資訊的雪人任務;如聚類 

泛化能力:學得模型適用於新樣本的能力

 

1.3  假設空間

科學推理兩大基本手段:歸納和演繹

歸納:從特殊到一般的泛化過程,即從具體事實歸納出一般性規律。從樣例中學習,顯然是一個歸納過程,也稱歸納學習

演繹:從一般到特殊的特化過程,即從基礎原理推演出具體狀況。例如在數學中,由一組公理推到出定理,這就是演繹

 

歸納學習有廣義和狹義之分

廣義歸納學習基本是從樣例(帶有標記資訊的訓練資料)中學習

狹義歸納學習要求從訓練資料中學得概念,稱為概念學習。概念學習技術目前研究和應用都比較少

 

由概念學習學得概念,由概念得知假設空間。圖1.1 西瓜問題的假設空間

整個學習過程:概念學習學得好瓜概念,可以得出好瓜可能的組合,再根據樣例資料排除非好瓜的組合,最好得出好瓜的假設

 

版本空間:一組與訓練集一致的假設 如何求取版本空間

求取版本空間:版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。

 

1.4 歸納偏好

當學得模型(多個)面臨新樣本時,產生不同的輸出,這樣的學習結果是沒有意義的。在產生不同輸出時必須選擇一個更信賴的模型,這就是歸納偏好。一個有效的學習演算法,必須有歸納偏好。大多數時候歸納偏好直接決定了學習演算法能否取得好的效能

 歸納偏好原則:

奧卡姆剃刀(occam's razor):若有多個假設與與觀察一致,選擇最簡單的

 

 沒有免費午餐定理(no freee lunch theorem 簡稱NFL定理 ):若A演算法在某些問題上比B演算法要好,那必然存在在某些問題上B演算法比A演算法要好。即沒有一個演算法試用於任何情況。NFL最重要的寓意是讓我們清楚的認識到,脫離具體問題空談什麼學習演算法更好是沒有意義的。因為若考慮所有潛在問題NFL已經證明了所有演算法一樣好。

 

問題:

為什麼概念學習中使用樣例資料?按照狹義歸納學習應該使用訓練資料

 

 

 

課後習題:完整答案 

1.1

先看看版本空間定義,文章寫得不錯

版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。

解:

假設空間指的是問題所有假設組成的空間,我們可以把學習過程看作是在假設空間中搜索的過程,搜尋目標是尋找與訓練集“匹配”的假設。

假設資料集有n種屬性,第i個屬性可能的取值有titi種,加上該屬性的泛化取值(*),所以可能的假設有∏i(ti+1)∏i(ti+1)。再用空集表示沒有正例,假設空間中一共∏i(ti+1)+1∏i(ti+1)+1種假設。
現實問題中常面臨很大的假設空間,我們可以尋找一個與訓練集一致的假設集合,稱之為版本空間。版本空間從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。


編號 色澤 根蒂 敲聲 好瓜
1 青綠 蜷縮 濁響 是
2 烏黑 稍蜷 沉悶 否
資料集有3個屬性,每個屬性2種取值,一共 3∗3∗3+1=283∗3∗3+1=28種假設,分別為

1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
2.色澤=青綠 根蒂=蜷縮 敲聲=沉悶
3.色澤=青綠 根蒂=稍蜷 敲聲=濁響
4.色澤=青綠 根蒂=稍蜷 敲聲=沉悶
5.色澤=烏黑 根蒂=蜷縮 敲聲=濁響
6.色澤=烏黑 根蒂=蜷縮 敲聲=沉悶
7.色澤=烏黑 根蒂=稍蜷 敲聲=濁響
8.色澤=烏黑 根蒂=稍蜷 敲聲=沉悶
9.色澤=青綠 根蒂=蜷縮 敲聲=*
10.色澤=青綠 根蒂=稍蜷 敲聲=*
11.色澤=烏黑 根蒂=蜷縮 敲聲=*
12.色澤=烏黑 根蒂=稍蜷 敲聲=*
13.色澤=青綠 根蒂=* 敲聲=濁響
14.色澤=青綠 根蒂=* 敲聲=沉悶
15.色澤=烏黑 根蒂=* 敲聲=濁響
16.色澤=烏黑 根蒂=* 敲聲=沉悶
17.色澤=* 根蒂=蜷縮 敲聲=濁響
18.色澤=* 根蒂=蜷縮 敲聲=沉悶
19.色澤=* 根蒂=稍蜷 敲聲=濁響
20.色澤=* 根蒂=稍蜷 敲聲=沉悶
21.色澤=青綠 根蒂=* 敲聲=*
22.色澤=烏黑 根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮 敲聲=*
24.色澤=* 根蒂=稍蜷 敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響
26.色澤=* 根蒂=* 敲聲=沉悶
27.色澤=* 根蒂=* 敲聲=*
28.空集Ø
編號1的資料可以刪除 2−8,10−12,14−16,18−20,22,24,26,282−8,10−12,14−16,18−20,22,24,26,28(不包含資料1)
編號1的資料可以刪除 2727(包含了資料2)
所以版本空間為:
1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
9.色澤=青綠 根蒂=蜷縮 敲聲=*
13.色澤=青綠 根蒂=* 敲聲=濁響
17.色澤=* 根蒂=蜷縮 敲聲=濁響
21.色澤=青綠 根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮 敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響
一般情況下版本空間是正例的泛化,但由於資料集中只有1個正例,所以在版本空間中依然包含了這個樣本的假設(假設1)。
---------------------
作者:四去六進一
來源:CSDN
原文:https://blog.csdn.net/icefire_tyh/article/details/52065224
版權宣告:本文為博主原創文章,轉載請附上博文連結!

 

1.2

析取正規化 合取正規化的概念  https://baike.baidu.com/item/%E6%9E%90%E5%8F%96/2841171?fr=aladdin

析取:邏輯或運算,並集;符號:∨

合取:邏輯與運算,交集;符號:∧

正規化:正規化為各種千變萬化的命題公式提供了一個統一(規範)的表達形式

簡單析取式:有限個文字構成的析取式

簡單合取式:有限個文字構成的合取式

析取正規化:有限個簡單合取式構成的析取式

合取正規化:有限個簡單析取式構成的合取式