1. 程式人生 > >西瓜書自學筆記第一章——緒論

西瓜書自學筆記第一章——緒論

本章主要介紹了機器學習是幹什麼的,以及機器學習的一些基本術語,發展歷程和應用現狀。

我舉一個工程當中的例子來說明一下這一章講到的機器學習基本屬於和概念的內容。假設現在我們有若干張書的照片和若干張筆的照片,我們的任務是讓計算機利用現有的照片進行學習,然後輸入一張新的照片時,判斷出是書的照片還是比的照片,這就是機器學習要完成的任務。

1、現有的若干張照片叫做“資料集”。
2、“資料集”中的某一張照片叫做一個“樣本”。
3、每一張照片的畫素點叫做“特徵”,如果這個照片的畫素是200200的彩色照片,那麼這個“樣本”具有200200*3個“特徵”。
每個“特徵”的取值叫做“特徵值”,對於照片,特徵值就是畫素點的取值。
4、每一個“樣本”從模型的角度來講也可以稱為“特徵向量”。
5、每個樣本所具有的“特徵”的個數叫做樣本的“維度”。
6、若干張照片組成的“資料集”用“特徵值表示”,以資料集的“維度”將所有可能的“特徵值”張成一個n維空間,這些資料的集合就是“樣本空間”。
7、這些照片根據一定的機器學習演算法會得到一個“模型”,這個“模型”可以用來預測新的圖片。
8、通過機器學習演算法得到“模型”的過程叫做“訓練”。
9、“資料集”中用於“訓練”的每個樣本叫做“訓練樣本”,他們組成的集合就是“訓練集”。
10、用於測試“模型”的效能的樣本叫做“測試樣本”,他們組成的集合就是“測試集”
11、在統計學習中,往往結果會表示為[0,1]的浮點數,作為分類的概率,如果越接近1,“模型”就認為是某類的可能性越大,反正則越小,得到這個值的學習任務稱為“迴歸”。
12、我們期待得到的“模型”可以更準確的預測新的照片,“模型”的這種能力叫做“泛化”。
13、學習得到的分類方案叫做“假設空間”,學習的過程就是在所有“假設空間”進行搜尋,確定符合“偏好”的假設空間的過程。