1. 程式人生 > >sklearn中的監督學習專有名詞

sklearn中的監督學習專有名詞

術業有專攻,我建議做爬蟲的可以瞭解一些機器學習的基礎,但不要用來做影象識別,

0. 特徵  和 特徵集   適用環境:監督學習

拿一個 西瓜舉例,給你許多西瓜,然後在瓜上貼上標籤分別是好瓜和壞瓜,

然後將好瓜和壞瓜一併給機器,這些瓜就相當與是訓練集,然後機器開始尋找特徵,漸漸的它找到了一個特徵:好瓜的皮都非常翠綠,  這就是特徵。

然後隨著瓜數量的增多,機器繼續找,然後發現拍起來響響的就是好瓜,於是現在出現兩種特徵來歸類是好瓜還是壞瓜,當前區別與之前的一個特徵,現在有兩個特徵,所以叫做特徵集

 

 

1. 標籤        適用環境:監督學習

 

就是在起初給你許多瓜的時候,這些瓜稱為訓練集,然後在這些瓜上人為的貼上標籤,對應好瓜和壞瓜。

 

 

 

2. 泛化能力     適用環境:監督學習

泛化能力就是指通過訓練一推西瓜,得到分類好瓜與壞瓜的特徵集以後,將該特徵集適用與訓練集以外的資料當中

那麼究竟何為泛化能力呢,就是說給機器這麼多西瓜它能用特徵集識別出好瓜與壞瓜以後,給它許多南瓜,它依舊可以幫你分出什麼是好南瓜,什麼是壞南瓜

這就是泛化能力。通俗的說就是達到了一通百通舉一反三的能力,這就是泛化能力

比如說給機器一堆二哈,它分類出這是狗,在給機器一堆茶杯犬,它依舊能分類為狗,這就說明機器具備泛化能力

 

那麼從中可以看出,泛化能力的產生不是訓練集越大越具備泛化能力,而是訓練集的不同,每次輸入一批不同的訓練集才能讓機器產生泛化的能力

 

 

3. 迴歸  分類     適用環境:監督學習

迴歸與分類的最好判斷就是輸出的結果,如果結果是非0即1的結果,則適用於分類演算法,

如果結果是一個不定的值的話,則適用於迴歸演算法

所以預判是好瓜還是壞瓜要用分類演算法

所以預判這瓜能賣多少錢 ,【有許多不同的答案了】,要用迴歸演算法

  

 

4. 4.離散變數       適用環境:監督學習

其數值只能用自然數或整數單位計算的則叫做離散變數.

通俗的來說離散變數就是指只能單個計數的,比如你的父母,只有可能是1個或是兩個,不可能出現2.1個,也不可能出現2.12個。

在比如說中國的遊戲,今年可能出現60個,明年可能出現100個,但是絕對不可能出現100.1個,這就是離散變數

然而離散變數與分類演算法的關係就在於,離散變數中還有一個子集,叫做類別變數

類別變數是離散的變數。

比如有關於天氣的變數:晴,陰,雨。只能是其中單獨一個,不存在介於兩種之間的,即不能又晴又雨。

那麼分類演算法就和離散變數中的類別變數有關了,也就是說分類的結果要麼是A,要麼是B,絕不可能出現AB.

 

 

5. 5.連續變數          適用環境:監督學習

在一定區間內可以任意取值的變數叫連續變數,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。

那麼通俗的來說連續變數就是指體重,體重可以是連續變數,迴歸演算法得到結果的變數可以是99.1kg,也可使是99.11kg,也可以是99.119kg這就是連續變數

 

 

6. 過擬合            適用環境:監督學習

為了得到一致假設而使假設變得過度嚴格稱為過擬合。

那適用場景相當於說你為了讓機器分辨出這是西瓜,給機器的訓練集都是圓的,那麼機器,在該場景中得到的分類結果是完全對的,但是當給一個日本的方西瓜時,機器因為過擬合問題導致機器無法分辨出方西瓜也是西瓜,這就是過擬合問題

過擬合會導致機器的泛化能力降低,可以認為該機器學習模型只能夠分類出在西瓜是圓的時候的一個場景不能適用與多個場景,那這樣的分類模型或迴歸模型所產生的問題就是過擬合,這樣的模型泛化能力極低。

所以可以看出來出現過擬合問題的原因是訓練集的量過於單一,應當提供不同的訓練集給機器學習。

 

 

 

7. 欠擬合           適用環境:監督學習

欠擬合就是分類或迴歸的機器學習模型沒有很好地捕捉到資料特徵,不能夠很好地擬合數據 。那就是說給的西瓜這個訓練集太少了,導致機器無法找到好西瓜,壞西瓜之間的特徵,這時如果給機器一批測試集的話,機器分類出來的結果達不到期許,就可以認為這個模型屬於欠擬合。

 

 

8. svm           適用環境:監督學習

支援向量機是指訓練集放入機器中,機器自己在尋找該訓練集的特徵,將可能的特徵放在一個個座標點上,最後依據標籤來找到符合的特徵點,這些特徵點連成的一條線就是一條分類的線。

比如x+y-2=0這條直線是花,x+y-2>0這條直線是草,通過這樣的方法來做到分類,這條線邊緣上的一個個點相當於是一個個特徵,這些特徵是構造這條直線關鍵。

【就是說支援向量機自己找到一個數據集的特徵,然後該特徵和標籤放在一起,然後得到一條分類線,然後又有一個數據集,在找到特徵和標籤放在一起,然後特徵和標籤不符合就會一次次修正資料達到一套高可用得分類線。】

向量是一條有方向,有長度,有大小的座標線,這些特徵就是這些座標點,通過這些座標點找到最後的分類線。

支援向量機的含義就是通過這些特徵的支援找到一條分類線