1. 程式人生 > >機器學習-1(基礎概念介紹)

機器學習-1(基礎概念介紹)

  首先我們要明白一點,什麼是機器學習?

我現在的理解就是資料,以及資料背後能夠被我們挖掘的含義。我們能利用這些資料去做些什麼

 

 機器學習的主要任務就是分類

為了測試機器學習演算法的效果,通常使用兩套獨立的樣本集:訓練資料和測試資料

當機器學習程式開始執行時,使用訓練樣本集作為演算法的輸入,訓練完成之後輸入測試樣本。輸入測試樣本時並不提供測試樣本的目標變數,由程式決定樣本屬於哪個類別。比較測試樣本預測的目標變數值與實際樣本類別之間的差別。由此我們就可以得到這個演算法的實際精確度。

一旦分類程式,經過測試滿足精確度要求,我們是否就認為機器已經學會了相關的演算法了呢?這部分工作就叫做知識表示。

知識表示可以採用規律集的形式,也可以採用概率分佈的形式,設定可以是訓練樣本集中的一個例項。

機器學習一個主要任務就是解決分類,將例項資料劃分到合適的分類中。機器學習的另一個任務就是迴歸,它主要是用來做預測。

分類和迴歸屬於監督學習,這類學習的演算法,它們知道預測什麼,即目標變數的分類資訊。

與監督學習相對應的是無監督學習,此時資料沒有類別資訊,也不會給定目標值。在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程叫做聚類;將尋找描述資料統計值的過程叫做密度估計。此外,無監督學習還可以減少資料特徵的維度

如果想要預測目標標量的值,則可以選擇監督學習演算法,否則選擇無監督學習演算法。

如果是監督學習演算法,如果目標變數是離散型,則我們可以使用分類器演算法;如果是連續型的值的話,那我們就使用迴歸演算法。

如果不想預測目標變數的值,則使用無監督學習演算法。如果需要把資料劃分為離散的組,那我們使用聚類演算法;如果還需要顧及各組資料與其他分組的相似程度,那我們使用密度估計演算法。