機器學習那些事
機器學習相關的論文非常多,有綜述性的論文,有演算法研究類的論文,有演算法解決實際問題的論文等。研究和應用機器學習,閱讀一些論文,是必要的事情。 《機器學習那些事》這篇論文,作者總結了機器學習應用的一些獨特而新穎的認知。通過閱讀這篇論文,對指導機器學習解決實際問題肯定是大有裨益的。因此,建議您騰出一點時間,閱讀一下這篇論文,讓自己能夠更加靈活而有效地應用機器學習。
機器學習系統
機器學習系統自動地從資料中學習程式。 機器學習系統特點:
- 自動化或者半自動化
- 專注於從資料中學習
- 基於從資料中學習的程式設計式
分類問題
分類問題是機器學習常用問題,也是本論文所探討的問題。但是,本文所總結的知識使用於其它機器學習問題。
一個分類器是一個系統,系統輸入是一個包括若干離散或者連續的特徵值的向量,系統輸出是一個離散值。 學習器的訓練是指從訓練資料集中學習到的分類器。 學習器的檢驗是判斷從訓練集學習到的分類器對將來的輸入樣例是否能夠輸出正確的類別。
學習 = 表示 + 評價 + 優化
機器學習演算法由三部分組成。
-
表示(Representation):為學習器選擇一種表示,意味著選擇一個特定的分類器的集合,學習器可能學出的分類器只能在這個集合中,這個集合被稱為學習器的假設空間。與此相關的問題,如何表示輸入?即使用那些特徵。
-
評價(Evaluation):設計一個評價函式(目標函式或者打分函式)來判斷分類器的優劣。
-
優化(Optimization):通過優化技術,在假設空間找到評價函式得分最高的那個分類器。
機器學習演算法的三個組成部分
機器學習的注意點
- 泛化很重要
- 僅有資料還不夠(學習器把知識和資料結合生成程式)
- 過擬合有多種形式(學習器偏差和方差的平衡)
- 維度災難
- 理論與實際的異同
- 特徵工程是關鍵
- 更多的資料勝過更聰明的方法(機器學習就是研究如何讓資料發揮作用的)
- 學習很多模型,而不僅僅是一個(整合學習技術)
- 簡單並不意味著準確
- 可表示並不意味著可學習
- 相關並不意味著因果
總結
本論文總結了機器學習教材或者其它論文裡面沒有談及的內容,但是,對指導機器學習解決實際問題很有幫助的知識。
論文下載連結
- 英文版:https://pan.baidu.com/s/1TMVrvogM2ADuOKSCrQa4Jg
- 中文版:https://pan.baidu.com/s/1MJPjt8jPrr1_6fIWyLPXTw
您在閱讀中,有什麼想法或者見解,請留言。
版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。
資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專注於從資料中學習到有用知識。 平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。 您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。 我們努力堅持做原創,聚合和分享優質的省時的資料知識! 我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!