機器學習中“假設空間”到底是什麼?“歸納學習”又是什麼?“布林概念”呢?
阿新 • • 發佈:2018-12-16
目錄
歸納和演繹
“歸納”和“演繹”是科學推理的兩大基本手段
“歸納”是從特殊到一般,是一個“泛化”過程,是總結經驗,比如貓有哪些特點?
“演繹” 就是從一般到特殊,從基本情況推出具體情況,是“特化”過程
從“樣本”中學習過程 稱為“歸納學習”
歸納學習分為廣義和狹義:
- 廣義的歸納學習大體相當於從樣例中學習
- 狹義的歸納學習要求從訓練資料中得到概念。(“概念”是一種存在的我們可能未知的事實。)
概念學習、概念形成最基本的是布林概念學習:
布林值就是0和1,表示“是”或者“不是”
假設我們有一個數據集,用來訓練演算法。通過 “ 色澤+跟蒂+敲聲” 來判斷這個瓜是否是好瓜。
計算機拿到這組資料集時,首先是直接記錄了這4個情況,等於只要和 這4種情況一樣,我們就可以直接判斷瓜的好壞。
但是訓練是從特殊到一般的過程,目的是“泛化”,能根據資料集訓練得到未知的結果,從而對瓜好壞進行判斷。
學習過程:在假設組成的空間中進行搜尋,搜尋目標與訓練進行“匹配”,從而能夠進行判斷。
以這個西瓜集為例子,形成的假設空間為:
假設空間相當於是對資料集的全組合,對未知的情況也進行組合,以便得到更加普遍“泛化”
現實生活中,假設空間都很大,而訓練樣本有限, 因此可能存在一個 與訓練集一致的“假設集合”,我們稱為“版本空間”
表1對應的版本空間為:
解答疑問
1.假設空間得到的結果一定是全組合嗎?
全組合是基於你給的資料集屬性決定的,比如,現在給你一個黃顏色的芯的西瓜,那就不在這個假設空間中。
2.假設空間還不是 很明白,能不能簡單描述?
假設空間就是基於資料集形成的所有情況的假設集合,對每種情況根據資料集分析得到概率情況,以便後期對未知情況進行判斷