1. 程式人生 > >機器學習實戰——機器學習基礎

機器學習實戰——機器學習基礎

  1. 機器學習用到了統計學知識
  2. 機器學習就是把無序的資料轉換成有用的資訊
  3. 如何從資料集中選取特徵?
    通常的做法是測量所有可測屬性,而後再挑出重要部分。
  4. 機器學習的主要任務就是分類。為了測試機器學習演算法的效果,通常使用兩套獨立的樣本集,訓練資料和測試資料。當機器學習程式開始執行時,使用訓練樣本集作為演算法的輸入,訓練完成後輸入測試樣本。輸入測試樣本時並不提供測試樣本的目標變數,由程式決定樣本屬於那個類別。比較測試樣本預測的目標變數值與實際樣本類別之間的差別,就可以得出演算法的實際精確度。
  5. 如何選擇合適的機器學習演算法?
    考慮使用機器學習演算法的目的。如果想要預測目標變數的值,則可以選擇監督學習演算法,否則可以選擇無監督學習演算法。確定監督學習演算法之後,需要進一步確定目標變數的型別,大多數情況下,如果目標變數是離散型,則可以選擇分類演算法;如果目標變數是連續型的數值,則需要選擇迴歸型演算法。注意:也可以用分類演算法來處理迴歸問題。
  6. 我們只能在一定程度上縮小演算法的選擇範圍,一般並不存在最好的演算法或者可以給出最好結果的演算法,同時還要嘗試不同演算法的執行結果。對於所選的每種演算法,都可以使用其他的機器學習技術來改進其效能。
  7. 開發機器學習應用程式的步驟
    (1)收集資料。提取資料的方法有很多(如製作網路爬蟲從網站上抽取資料),為了節省時間和精力,可以使用公開可用的資料來源。
    (2)準備輸入資料。確保資料格式符合要求。
    (3)分析輸入資料。確保資料集中沒有垃圾資料
    (4)訓練演算法。將前兩步得到的格式化資料輸入到演算法,從中抽取知識或資訊。如果使用無監督學習演算法,由於不存在目標變數值,故而也不需要訓練演算法,轉到下一步。
    (5)測試演算法。
    (6)使用演算法。將機器學習演算法轉化為應用程式,執行實際任務。