1. 程式人生 > >吳恩達機器學習 學習筆記 之 一 監督學習和無監督學習

吳恩達機器學習 學習筆記 之 一 監督學習和無監督學習

一、 

1-1 welcome

1-2 什麼是機器學習——Machine Learning

機器學習尚無明確定義,現有的定義有:

(1)Field of study that gives computers the ability to learn about being explicity (明確地) programmed. ——Arthur Samuel 機器學習做什麼

機器學習是一個學習領域,並在沒有明確訓練的情況下,交給計算機學習的能力。

注:該定義之所以成名,是因為Samuel編寫了一個跳棋程式。該程式使計算機自己與自己下棋,通過成百上千次的訓練、觀察,逐漸學會哪些是好的佈局,最終計算機成為一個跳棋高手,儘管其創作者Samuel並不擅長跳棋遊戲。

(2)A computer program is said to learn from experience E with  respect to some task T and some performance measure P , if its performance on T , as measured by P , improved with experience E. —— Tom Mitchell 良好的學習問題是什麼

計算機程式從經驗E中學習任務T,並用度量P來衡量效能。條件是它(由P衡量的)關於T的效能隨著經驗E而提高。

對於跳棋遊戲,經驗E就是計算機與自己玩10次,1000次的跳棋;任務T就是玩跳棋的任務;效能度量P就是與新對手玩跳棋時贏的概率。

後面將會講不同型別的學習演算法,主要有兩類:監督學習(Supervised learning)和非監督學習(Unsupervised learning)。

監督學習:我們教計算機如何做事情。

非監督學習:計算機自己學習。

其他的學習演算法,例如增強學習(Reinforcement learning)和推薦系統(recommender systems)。

1-3 監督學習——Supervised Learning

本節講述機器學習的最普通型別是什麼,哪些是監督學習。 例1:預測房屋價格 例子,假設想要預測房屋價格,繪製了下面這樣的資料集。水平軸上,不同房屋的尺寸是平方英尺,在豎直軸上,是不同房子的價格,單位時(千萬$)。給定資料,假設一個人有一棟房子,750平方英尺,他要賣掉這棟房子,想知道能賣多少錢。

那麼學習演算法能做的事是什麼呢?可能是根據資料畫一條直線或者說用一條直線擬合數據。看上去,可能會賣150K美元。
但是,這不是唯一的學習演算法,可能有更好的。例如,不是用一條直線擬合數據,而是用一個二次函式或二階多項式來擬合數據,這樣效果可能會更好。在這種情況下,該房子可能會賣到200K美元。 後面要討論的就是如何選擇,決定用直線還是二次函式進行擬合。 這是監督學習的很好的例子,監督學習是指我們給演算法一個數據集,並且給定正確答案。也就是說,我們給定一個房屋資料集,在這個資料集中的每個例子,我們都給出正確的價格,也即這個房子賣出的實際價格。演算法的目的就是給出更多的正確答案,例如對待售房子,假如想要給待售的房子估價,這也稱為迴歸問題(Regression : Predict continuous value output——price)。之所以稱為迴歸問題,是因為其預測連續的輸出值,即價格。 例2:估計腫瘤性質 另一個例子,假設想要看醫療記錄,並且想設法預測乳腺癌是惡性的還是良性的。假設某人發現了一個乳腺瘤,在乳腺上有個z腫塊,惡性瘤是危險的、有害的;良性瘤是無害的。 假設在資料集中,水平軸是瘤的尺寸,豎直軸是1或0,也可以是Y或N。在已知腫瘤樣例中,惡性的標為1,良性的標為0。那麼,如下,藍色的樣例便是良性的,紅色的是惡性的。
假設一個人得了乳腺癌(即圖中紫紅色箭頭指示的樣例),機器學習的任務就是估計該腫瘤的性質,是惡性的還是良性的。 引入一個更專業的術語,這就是一個分類問題(calssification problem)。 Classification refers to the fact that here we're trying to predict a discrete value output : zero or one , malignant or benign . 分類是指預測一個連續的輸出值,0或1,惡性或良性。 在分類問題中,可以輸出多於兩個值。在實際例子中,可能有三中型別的乳腺癌。因此,要預測離散值0,1,2,3,其中0是良性的。1、2、3分別代表癌症1,癌症2,癌症3。可以用另一種方法來表示這些資料,用不同的符號集來繪製這組資料。假設瘤的尺寸是用來預測惡性或良性的特徵。用不同的符號表示良性或惡性,或說反例和正例。我們可以用圈表示良性,繼續用紅叉表示惡性,把資料集對映到這條實線上。

1-4 非監督學習 —— Unsupervised Learning

在上節的監督學習當中,所有的樣本都被標為正樣本或負樣本,即良性或惡性。因此監督學習的樣本,已經知道了明確的“正確答案”,即是良性還是惡性。
而在無監督學習中,給定的樣本沒有“正確答案”,即標籤,所有的資料都是一樣的。無監督學習的任務是從給定的資料集中,找出可能具有的結構。
對於上圖中的資料,無監督學習演算法可能將其分為兩類,這就是聚類演算法(Clustering Algorithm)。 現舉一個聚類演算法的例子,Google搜尋中,將所有的新聞收集到一起,然後將其分類。 在基因組學中的應用,基因晶片,給定一組不同的個體,檢查每個個體是夠擁有某個特定的基因。執行一個聚類演算法,將不同的個體歸入不同的類。 形象來說,就是我們有一堆資料,不知道這些資料有什麼型別,希望演算法能自動找出可能的型別,並自動將其分類。即將相似的聚合在一類。 再舉一些監督學習和無監督學習的例子: 無監督:用於管理計算機叢集,在一個計算機管理中心,找出哪些計算機在進行著協同工作,就可以讓資料中心更高效的工作。 無監督:用於社交網路的分析,若知道某人的各種賬號的好友,例如QQ、微信、FaceBook等,就能知道哪些好友是一個好友組,哪些僅僅是互相認識的好友。 無監督:很多公司有大型的客戶資訊資料庫,給出一個客戶資料集,自動找出不同的市場分割,並自動將客戶分到細分市場中,從而在不同的細分市場中進行更有效的銷售。。在這裡事先並不知道有哪些細分市場。

相關推薦

機器學習 學習筆記 二 :代價函式梯度下降演算法

二、 2-1 Model Representation 我們學習的第一個演算法是線性迴歸,接下來會講什麼樣的模型更重要,監督學習的過程是什麼樣子。 首先舉一個需要做預測的例子:住房價格上漲,預測房價,我們擁有某一城市的住房價格資料。基於這些資料,繪製圖形。 在已有房價資

機器學習 學習筆記 監督學習監督學習

一、  1-1 welcome 1-2 什麼是機器學習——Machine Learning 機器學習尚無明確定義,現有的定義有: (1)Field of study that gives computers the ability to learn about being

Coursera 深度學習 deep learning.ai 筆記整理(3-2)——機器學習策略

新的 bsp 誤差 spa 歸納 空間 font 處理 整理 一、誤差分析 定義:有時我們希望算法能夠勝任人類能做的任務,但是當算法還沒達到人類所預期的性能時,人工檢查算法錯誤會讓你知道接下來做什麽,這也就是誤差分析 檢查,發現會把夠狗當恒,是否需要做一個項目專門處理狗

機器學習”——學習筆記

最大似然 數據 learning 模型 ima 我們 回歸 eps 而是 定義一些名詞 欠擬合(underfitting):數據中的某些成分未被捕獲到,比如擬合結果是二次函數,結果才只擬合出了一次函數。 過擬合(overfitting):使用過量的特征集合,使模型過於復雜。

機器學習”——學習筆記

包含 找到 trade 經驗 這也 ... info 算法 不等式 偏差方差權衡(bias variance trade off) 偏差:如果說一個模型欠擬合,也可以說它的偏差很大。 方差:如果說一個模型過擬合,也可以說它的方差很大。 訓練誤差 經驗風險最小化(ERM)

機器學習學習筆記——1.5監督學習

分類 哪些 rep epm 朋友 工作 style class 客戶 1 無監督學習:在不知道數據點的含義的情況下,從一個數據集中找出數據點的結構關系。 2 聚類算法:相同屬性的數據點會集中分布,聚集在一起,聚類算法將數據集分成不同的聚類。也就是說,機器不知道這些數據點具體

機器學習學習筆記——2.1單變量線性回歸算法

工作方式 樣本 body 聚類 屬性 bsp 定義 算法 信息 1 回顧1.1 監督學習定義:給定正確答案的機器學習算法分類:(1)回歸算法:預測連續值的輸出,如房價的預測(2)分類算法:離散值的輸出,如判斷患病是否為某種癌癥1.2 非監督學習定義:不給定數據的信息的情況下

機器學習學習筆記——代價函數

info alt 學習 ima 代價函數 png 線性回歸 gpo mage 單變量線性回歸函數 hθ(x) = θ0 + θ1x 為了使線性回歸函數對數據有較好的預測性,即y到h(x)的距離都很小。 【吳恩達機器學習】學習筆記——代價函數

機器學習學習筆記——梯度下降

得到 向導 bubuko gpo 思路 pos 方向導數 ... image 梯度下降算法能夠幫助我們快速得到代價函數的最小值 算法思路: 以某一參數為起始點 尋找下一個參數使得代價函數的值減小,直到得到局部最小值 梯度下降算法: 重復下式直至收斂,其中α為學習速

機器學習學習筆記——2.7第一個學習算法=線性回歸+梯度下降

com 梯度 .com 局部最優 alt ima 實現 梯度下降 width 梯度下降算法:              線性回歸模型:       線性假設:                      平方差成本函數: 將各個公式代入,對θ0、θ1分別求偏導得: 再將偏

Coursera-AndrewNg()機器學習筆記——第三周

訓練 ros 方便 font 就是 梯度下降 全局最優 用法 郵件 一.邏輯回歸問題(分類問題) 生活中存在著許多分類問題,如判斷郵件是否為垃圾郵件;判斷腫瘤是惡性還是良性等。機器學習中邏輯回歸便是解決分類問題的一種方法。二分類:通常表示為y?{0,1},0:“Negat

機器學習筆記 —— 5 多變量線性回歸

擬合 進行 image 價格 常用 從表 cnblogs 優化 深度 本篇主要講的是多變量的線性回歸,從表達式的構建到矩陣的表示方法,再到損失函數和梯度下降求解方法,再到特征的縮放標準化,梯度下降的自動收斂和學習率調整,特征的常用構造方法、多維融合、高次項、平方根,最後基

機器學習筆記 —— 9 神經網絡學習

滿了 線性回歸 復雜 amp 技術分享 tps 機器 神經網絡 前饋型神經網絡 本章講述了神經網絡的起源與神經元模型,並且描述了前饋型神經網絡的構造。 更多內容參考 機器學習&深度學習 在傳統的線性回歸或者邏輯回歸中,如果特征很多,想要手動組合很多有效的特征是不

機器學習筆記(六) —— 支持向量機SVM

次數 括號 圖片 最小 我們 支持向量機svm UNC 意思 strong 主要內容: 一.損失函數 二.決策邊界 三.Kernel 四.使用SVM 一.損失函數 二.決策邊界 對於: 當C非常大時,括號括起來的部分就接近於0,所以就變成了:

機器學習筆記 —— 17 推薦系統

htm 特征 問題 這就是 ref 圖片 系統 得出 工業 本章講述了推薦系統相關的知識,比如基於內容的推薦算法、基於協同過濾的推薦算法以及實踐中遇到的問題。 更多內容參考 機器學習&深度學習 推薦系統是機器學習在工業界應用最廣泛的方向,很多電子商務類、咨詢類的

機器學習筆記 —— 12 機器學習系統設計

不知道 cor 算法 項目 詞語 樣本 我們 們的 ... http://www.cnblogs.com/xing901022/p/9362339.html 本章主要圍繞機器學習的推薦實踐過程以及評測指標,一方面告訴我們如何優化我們的模型;另一方面告訴我們對於分類的算法

機器學習筆記 —— 14 監督學習

www 最簡 業務 一次 曲線 logs img 下一個 com http://www.cnblogs.com/xing901022/p/9368432.html 本章講述的是第一個無監督的機器學習算法,在無監督的算法中,樣本數據只有特征向量,並沒有標註的y值。比如聚類

機器學習筆記 —— 19 應用舉例:照片OCR(光學字符識別)

參考 https ocr 噪聲 也說 字符 www. 定位 cnblogs http://www.cnblogs.com/xing901022/p/9374258.html 本章講述的是一個復雜的機器學習系統,通過它可以看到機器學習的系統是如何組裝起來的;另外也說明了一

機器學習筆記 —— 11 應用機器學習的建議

切分 image 們的 正則化 如果 mage 樣本 獲得 建議 http://www.cnblogs.com/xing901022/p/9356783.html 本篇講述了在機器學習應用時,如何進行下一步的優化。如訓練樣本的切分驗證?基於交叉驗證的參數與特征選擇?在訓

機器學習筆記

叠代 公式 spec end webkit 測量 ase letter s函數 1 機器學習的含義 (1)Field of study that gives computers the ability to learn without being explicitly p