1. 程式人生 > >【自學筆記】0基礎自學機器學習 (第三天)

【自學筆記】0基礎自學機器學習 (第三天)

 

“資料”是機器學習的基礎。

 

 

 

初學機器學習時,我們通常處理的資料格式通常是以下的形式:

 

 

屬性(特徵)

幾室

幾廳

供暖(0地熱 1暖氣)

...

臨街(1臨街 2不臨街)

樓層

房價

樣本1

3

2

1

...

1

5

300000

...

...

...

...

...

...

...

...

樣本N

4

1

0

...

0

2

400000

 

 

關於房價評估預測,假設該表反應為一個我們實地採集的資料,我們要從中 “機器學習” 之前首先要學習幾個概念: 

 

 

樣本

    上表中一橫行為一個樣本,即我們所採集到的一所房子的相關資訊。

特徵

    上表中一縱列為一個屬性(或特徵),即一個房子的某些方面,如幾室幾廳。人們在購買房子時,幾室幾廳直接影響房子價格,所以我們要採集他,當然一些資料有一些非直觀的影響,如當地工業程度對房價的影響。

標籤

    上表中最後一列為標籤,即我們想要預測的內容。如該例中,我們想預測房價

資料集

    所有樣本的集合

 

數學符號還是寫在紙上好...

 

 

咳咳...機器學習中包含多種任務,途中第一種被稱為“監督”學習,又稱“有導師學習”,第二種被稱為“無監督學習”,又稱“無導師學習”。

區別在於,有導師的情況下做課題,我們明確知道自己想要什麼~來嘛...,比如上例中的明確所求的房價預測。

沒有帶領的情況下,我們要學會自己發現什麼..."波蒂,我們的祕密被洩露了~"比如通過一組體檢資料發現身高和體重的關係。

 

 

(未完持續)