【自學筆記】0基礎自學機器學習 (第三天)
阿新 • • 發佈:2018-12-28
“資料”是機器學習的基礎。
初學機器學習時,我們通常處理的資料格式通常是以下的形式:
屬性(特徵) |
幾室 |
幾廳 |
供暖(0地熱 1暖氣) |
... |
臨街(1臨街 2不臨街) |
樓層 |
房價 |
樣本1 |
3 |
2 |
1 |
... |
1 |
5 |
300000 |
... |
... |
... |
... |
... |
... |
... |
... |
樣本N |
4 |
1 |
0 |
... |
0 |
2 |
400000 |
關於房價評估預測,假設該表反應為一個我們實地採集的資料,我們要從中 “機器學習” 之前首先要學習幾個概念:
樣本 |
上表中一橫行為一個樣本,即我們所採集到的一所房子的相關資訊。 |
特徵 |
上表中一縱列為一個屬性(或特徵),即一個房子的某些方面,如幾室幾廳。人們在購買房子時,幾室幾廳直接影響房子價格,所以我們要採集他,當然一些資料有一些非直觀的影響,如當地工業程度對房價的影響。 |
標籤 |
上表中最後一列為標籤,即我們想要預測的內容。如該例中,我們想預測房價 |
資料集 |
所有樣本的集合 |
數學符號還是寫在紙上好...
咳咳...機器學習中包含多種任務,途中第一種被稱為“監督”學習,又稱“有導師學習”,第二種被稱為“無監督學習”,又稱“無導師學習”。
區別在於,有導師的情況下做課題,我們明確知道自己想要什麼~來嘛...,比如上例中的明確所求的房價預測。
沒有帶領的情況下,我們要學會自己發現什麼..."波蒂,我們的祕密被洩露了~"比如通過一組體檢資料發現身高和體重的關係。
(未完持續)