1. 程式人生 > >什麼是監督學習非監督學習,強化學習

什麼是監督學習非監督學習,強化學習

機器學習按照學習方式的不同,分為很多的型別,主要的型別分為

  • 監督學習
  • 非監督學習
  • 強化學習
  • 半監督學習

什麼是監督學習?

    利用一組已知類別的樣本調整分類器的引數,使其達到所要求效能的過程,也稱為監督訓練。

   正如下圖中給出了好多鴨子的特徵那樣,指示出那些是鴨子哪些不是鴨子,然後讓計算機進行學習,計算機要通過學習才能具有識別各種事物和現象的能力。

    用來進行學習的材料就是與被識別物件屬於同類的有限數量樣本,在本例子中指的是哪些選擇的鴨子。

    除此之外,監督學習中在給予計算機學習樣本的同時,還告訴計算各個樣本所屬的類別。

 

 

當再次給出一個特徵圖片的時候,就可以通過預測模型進行判斷。

監督學習就是標明一些資料是對的,另一些資料是錯的,然後讓程式預測,新的資料是對的還是錯的。所以說,有監督學習,必須是有標籤的。

什麼是無監督學習?

無監督學習,顧名思義,就是不對資料進行標明,讓機器自動去判斷,哪些資料比較像,歸到一類等等

無監督學習注重的是把特徵物件歸為類

 

什麼是半監督學習?

 半監督學習是模式識別和機器學習領域研究的重點問題,是監督學習與無監督學習相結合的一種學習方法。半監督學習使用大量的未標記資料,以及同時使用標記資料,來進行模式識別工作。

所給的資料有的是有標籤的,而有的是沒有標籤的。

通過下圖來進行舉例,如果比做人的話,半監督學習就類似於人的生活,一些人是有標籤的,比如商界的精英,總裁,一些人是無標籤的,在社會中無標籤的人佔

大多數,有標籤的精英佔少部分。

當一個人進來的時候,就會對他的特徵進行判斷,也就是是否是精英進行判斷,是否需要歸為相同的類。

 

 什麼是強化學習?

 強化學習的核心是一個概念,即最佳的行為或行動是由積極的回報來強化的。機器和軟體代理使用強化學習演算法,通過以環境的反饋為基礎來確定理想行為。

       強化學習演算法可以在必要時隨時間保持適應環境,以便長期獲得最大的回報。比如一個通過強化學習來學習行走的機器人將通過嘗試不同的方法獲得有關這些方式成功的反饋,然後進行自我的調整直到達到行走的目標。大步伐會讓機器人摔倒,通過調整步距來判斷這是否是保持直立的原因,通過不同的變化持續學習,最終能夠行走。

      以上說明,獎勵是保持直立,懲罰就是摔倒,機器人基於對其動作的反饋資訊進而優化並強化。

     強化學習需要大量的資料。

比如在超級瑪麗這一款遊戲中,水道工通過環境的不斷地變化,通過吃蘑菇進行不斷地強化自己完善自己,這個過程就可以類比如強化學習

 

 

 

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++