1. 程式人生 > >機器學習中的概念---輸入空間、標記空間、樣本空間、假設空間、版本空間

機器學習中的概念---輸入空間、標記空間、樣本空間、假設空間、版本空間

在這裡插入圖片描述

一:輸入空間/特徵空間/屬性空間

  • 這三個概念都是指的X,都是指的輸入量

二:標記空間/輸出空間

  • 指的是Y,指的是輸出量。(有時候,X-Y的所有對映也被當作Y,概念上有點混亂)

一:樣本空間
樣本空間的標準定義是:所有可能存在的、合理的、情況的集合。機器學習的主要工作就是尋找從屬性空間(X)到標記空間(Y)的一個對映關係。說法很多,但可以認為Xi-Yi實際存在的一個組合就是一個樣本,而所有樣本的集合,就是樣本空間。
上表中給出了四種實際存在的情況,也即是我們目前所能獲得的訓練集。而上述的的訓練集只是樣本空間一個很小的取樣。
說法很多:
1、Xi-Yi實際存在的一個組合就是一個樣本,而所有樣本的集合,就是樣本空間
2、X就是樣本空間。

二:假設空間

起初,我們並不能得到樣本空間。只有樣本空間的一個很小的子集,也就是上面的四條樣本。但可以確定的是(目前姑且這樣認為)每一條示例有三條屬性,即一個瓜的好或不好,由三個屬性確定,而每個屬性有三個值。就拿西瓜的顏色來說,表中有青綠、烏黑,姑且加一種淺白(僅為演示何為假設空間),可以確定的是一個好瓜應該是青綠或烏黑色;但也可能,西瓜的好或不好與顏色無關,即在好瓜的情況下西瓜的顏色可能是*(*代表任意顏色),那麼西瓜的顏色這一屬性就有四個可能的取值。

即假設空間可以這樣定義:色澤:、根蒂:、敲聲:是好瓜。色澤:、根蒂:、敲聲:濁響是好瓜。色澤:、根蒂:、敲聲:清脆是好瓜。色澤:

、根蒂:、敲聲:沉悶是好瓜。這是一個簡單的排列組合問題。一共有44*4+1=65種情況。最後的1表示任何情況都不是好瓜,即沒有好瓜的情況。

可以看出來,假設空間是在已知屬性和屬性可能取值的情況下,對所有可能滿足目標(好瓜)的情況的一種毫無遺漏的假設集合。

三:版本空間

   從上面可以看到,假設空間,單純的羅列的所有可能的情況,這更多的是一種數學上的羅列。顯然假設空間中肯定有很多是不滿足情況的,或是不合理的。…………比如根據上述表格中的訓練資料(樣本空間的子集)可以看出,“色澤:青綠、根蒂:硬挺、敲聲:清脆不是好瓜“,所以假設空間中的“色澤:青綠、根蒂:硬挺、敲聲:清脆是好瓜”顯然是錯誤的假設,應當捨去。…………上面是刪除假設空間明顯錯的假設。但還有那種不錯誤,但會有嚴重誤導傾向的假設也需要刪除。比如假設空間中有“色澤:青綠、根蒂:蜷縮、敲聲:濁響是好瓜”,這和訓練資料集正好吻合,顯然是正確的,但是對於假設空間來說,此條假設也應該被刪除。因為如果說“色澤:青綠、根蒂:蜷縮、敲聲:濁響是好瓜”那麼“色澤:烏黑、根蒂:蜷縮、敲聲:濁響就不是好瓜了”這顯然有種“過度精確”的錯誤。僅根據上述訓練集中的四條資料來判斷,“色澤:*、根蒂:蜷縮、敲聲:濁響是好瓜”便比較合適了。這能很好的契合表中的四條資料。…………如果按照上述原則“色澤:淺白、根蒂:蜷縮、敲聲:濁響”會被判斷為好瓜,這正確與否顯然是不知道的。所以,如果想做出正確的判斷,就需要全面大量的訓練,目的就是儘量的排出假設空間中不合理的假設。而剩下的假設就是在滿足已有訓練資料集的情況下,做出的最優選擇了。…………現實問題中,我們常面臨很大的假設空間,但學習過程是根據有限的樣本訓練集進行的,那麼對於不同版本的訓練集,應該會有不同版本的“刪除後”的假設空間與之對應。便稱之為版本空間。    

參考文獻:https://blog.csdn.net/csucsgoat/article/details/79598803