1. 程式人生 > >演算法工程師修仙之路:吳恩達機器學習(一)

演算法工程師修仙之路:吳恩達機器學習(一)

吳恩達機器學習筆記及作業程式碼實現中文版

第一章 緒論:初識機器學習


什麼是機器學習

  • Machine Learning(機器學習)是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。

  • 機器學習被用於資料探勘的原因之一是網路和自動化技術的增長,這意味著,我們有史上最大的資料集。比如說,大量的矽谷公司正在收集 web 上的單擊資料,也稱為點選流資料,並嘗試使用機器學習演算法來分析資料,更好的瞭解使用者,併為使用者提供更好的服務。

  • 大部分的自然語言處理和大部分的計算機視覺,都應用了機器學習。學習演算法還廣泛
    用於自定製程式,軟體能給這些自定製的建議的唯一方法是通過學習你的行為,來為你定製服務。

  • 第一個機器學習的定義來自於 Arthur Samuel。他定義機器學習為,在進行特定程式設計的情況下,給予計算機學習能力的領域。

  • 由 Tom Mitchell 定義的機器學習是,一個程式被認為能從經驗 E 中學習,解決任務 T,達到效能度量值P,當且僅當,有了經驗 E 後,經過 P 評判,程式在處理 T 時的效能有所提升。

  • 目前存在幾種不同型別的學習演算法,主要的兩種型別被我們稱之為監督學習和無監督學習。監督學習這個想法是指,我們將教計算機如何去完成任務,而在無監督學習中,我們打算讓它自己進行學習。

監督學習

  • 監督學習指的就是我們給學習演算法一個數據集。 這個資料集由“正確答案”組成。

  • 監督學習的基本思想是:我們資料集中的每個樣本都有相應的“正確答案”, 再根據這些樣本作出預測。

    • 迴歸問題:即通過迴歸來推出一個連續的輸出。
    • 分類問題:其目標是推出一組離散的結果。

無監督學習

  • 無監督學習中沒有任何的標籤或者是有相同的標籤或者就是沒標籤。

  • 我們沒有給演算法正確答案來回應資料集中的資料,這就是無監督學習。

  • 垃圾郵件問題:如果你有標記好的資料,區別好是垃圾還是非垃圾郵件,我們把這個當作監督學習問題。

  • 新聞事件分類的例子:可以用一個聚類演算法來聚類型別相同或相似的文章到一起,所以是無監督學習。

  • 細分市場的例子:可以當作無監督學習問題,因為只是拿到演算法資料,再讓演算法去自動地發現細分市場。