1. 程式人生 > >機器學習總結之第一章緒論

機器學習總結之第一章緒論

分享 概率 都是 ack 學習 包含 png 分類 post

機器學習總結之第一章緒論

http://www.cnblogs.com/kuotian/p/6141728.html

1.2基本術語

特征向量:即示例,反映事件或對象在某方面的性質。例如,西瓜的色澤,敲聲。

屬性:例如 青綠 烏黑 清脆。

數據集:例如(色澤=青綠,根蒂=蜷縮,敲聲=濁響),(色澤=淺白,根蒂=硬挺,敲聲=清脆),(色澤=烏黑,根蒂=稍蜷,敲聲=沈悶)……

例如,D = {X1,X2,……,Xm}表示包含m個示例的數據集。

Xi = (xi1;xi2;……;xid)每個示例有d個屬性表述。

標記:預測結果信息,例如((色澤=青綠,根蒂=蜷縮,敲聲=濁響),好瓜)。好瓜則為標記。

標記的集合,亦稱:標記空間,輸出空間。

樣例:擁有標記信息的示例。用(xi,yi)表示樣例。

分類:預測是離散值。例如:好瓜,壞瓜。

回歸:預測的是連續值。例如:西瓜的成熟度0.89,0.37。輸出空間y=R(實數集)

二分類:分正類,反類。樣本空間--->輸出空間 輸出空間 = {+1,-1} 或{0,1}

多分類:|輸出空間y|>2

聚類:分成若幹組

監督學習:回歸,分類。

無監督學習:聚類。

獨立同分布:樣本服從一個未知的分布,獲得的每個樣本呢都是獨立的從這個分布上采樣獲得的。

1.3假設空間

歸納學習:廣義--->從樣例中學習

狹義:從訓練數據中學得概念。

概念學習:(色澤=?)^(根蒂=?)^(敲聲=?)

假設空間若色澤,根蒂,敲聲,各有3種可能取值。

假設空間大小規模:4*4*4+1=65;3+1=4 的兩個加1都是是通配符的情況。

技術分享圖片

對假設空間自頂向下搜索,即訓練。

版本空間多個假設與訓練集一致,即存在著一個與訓練集一致的假設集合。

技術分享圖片

1.4歸納偏好

我的理解:當在現有的模型中,出現新的樣本,既可以歸為正類,也可以歸為反類。我們設定一個優先級,根據這個偏好去歸納。

奧卡姆剃刀:若有多個假設與觀察一致,選最簡單的那個。例如曲線A的描述方程要比B簡單的多。自然偏好A。

技術分享圖片

此時剃刀不適用。

技術分享圖片

假設樣本空間和假設空間都是離散的.令代表算法基於訓練數據X產生假設h的概率,再令f代表我們學習的真實目標函數。的”訓練集外誤差”,即在訓練集外的所有樣本上的誤差為

技術分享圖片

技術分享圖片

技術分享圖片

上面式中所有可能性之和自然是為1。

在問題出現的機會相同,所有問題同等重要,對於任意兩個學習算法,其總誤差相等,期望性能相同。

脫離具體問題談算法的好壞無意義。

機器學習總結之第一章緒論