1. 程式人生 > >機器學習基石 機器學習基石(Machine Learning Foundations) 作業1 習題解答

機器學習基石 機器學習基石(Machine Learning Foundations) 作業1 習題解答

        大家好,我是Mac Jiang,今天和大家分享coursera-NTU-機器學習基石(Machine Learning Foundations)-作業1的習題解答。筆者是在學習了Ng的Machine Learning之後開始學習這門課程的,但還是感覺收穫頗豐。Ng的課程主要站在計算機專業的角度,教你如何使用機器學習,注重方法而不是數學推導,是一門很好的入門教程;而林軒田老師的機器學習基石是站在統計分析角度,證明機器學習演算法為什麼要這麼做,更加註重於理論的證明,如果你想更加深入瞭解機器學習,或者想自己編寫機器學習演算法的,學習這門課還是很有必要的!

        首先宣告,筆者在這裡提供一些作業解答的目的不是為了讓你得到更高的分數,而是對一些學習上有困難的同學提供一些幫助。筆者的目的是提供一種可行的思路,但是說實話,這裡面很多題目筆者也沒能夠理解。所以如果各位博友發現任何錯誤或者有更好的思考方法,請留言聯絡,謝謝!再次提醒:請不要以此部落格作為通過考試的用途,還是更好學習、理解課程的途徑!

1.第一題

(1)題意:下列哪些問題最適合用機器學習解決

(2)分析:適合用機器學習解決的問題主要包括以下特點

                    a.存在某些目標,隱藏規則(underlying pattren)

                    b.這些規則我們難以定義,不知道如何寫下了

                    c.有學習這個隱藏規則的資料data

        i.區分一個數是否為素數:錯誤,我們可以很簡單寫出素數的規則,只能被1或他本身整除

        ii.確定信用卡是否被盜刷:正確,這是極其學習裡面的異常點檢測問題

        iii.確定一個物體的落地時間:錯誤,這裡有物理學公式,h=0.5*g*t^2

        iv.確定擁擠路口交通訊號燈的最佳迴圈:正確

        v.確定某種藥物的推薦服用者年齡:正確,可以通過聚類找出效果好的群

(3)答案:ii,iv,v

2.第二題

(1)題意:問題2-5,都是確定相對於每種任務的最佳機器學習演算法。下象棋,利用不同的策略並把輸出作為反饋

(2)分析:這顯然是增強學習(reinforcement)。增強學習是指設計回報函式,若決定進行一步,如果這部的表現結果較好,則給一些正回報,如果這一部表現結果較差,則返回一些負的回報。這道題顯然,利用輸出作為反饋,可以知道這步棋的好壞,給予相應的回報。

(3)答案:reinforce Learning

3.第三題

(1)題意:在沒給定標題的情況下分類書本

(2)分析:這顯然是無監督學習(unsupervised learning)。書本沒有給定標題,即樣本沒有y值。可以根據數的單詞,厚度等特徵聚類,將特徵相近的聚為一類,這是無監督學習

(3)答案:unsupervised learning

4.第四題

(1)題意:區別一張圖片中是否有人臉,給定1000張有人臉的圖片和10000張沒有人臉的圖片

(2)分析:已經知道圖片是有人臉的和沒人臉的,每張圖片都有標籤了,顯然是監督學習(supervised learning )

(3)答案:supervised learning

5.第五題

(1)題意:有選擇的安排實驗,快速知道癌症藥的潛在左右

(2)分析:這裡的答案是active learning。我的理解是,我們想知道這種藥的潛在左右,所以我們有選擇性的安排實驗,這是一個提問的過程,是主動學習。

(3)答案:active learning

6.第六題

(1)題意:太複雜了,自己看吧~就是要我們分析N+1到N+L有幾個偶數

(2)暴力解決:56~101有23個偶數

         N為奇,N+L為奇:N=55,N+L=101,(N+1~N+L)56~101有23個,選項1結果為22錯誤,選項2結果為24錯誤,排除1和2

         N位奇,N+L為偶:N=55,N+L=100,(N+1~N+L)56~100有23個偶數,選項5為22錯誤

         可以嚴重,其他兩種情況對選項3都是正確的

(3)答案:選項3,下整減下整

7.第七題

(1)題意:f can generate D的意思是,f可以擬合D中的每個元素。題目讓我們求這些f的總個數,即所有能擬合D的f個數。

(2)分析:f擬合D,而他對D以外的樣本的擬合不管。D以外的樣本共有L個,即這些f對這L個樣本的擬合程度是任意的,共2^L種

(3)答案:2^L

8.第八題

(1)分析:雖然看了上面的解答,但還是有一點疑惑。   我個人理解不知道對否,寫在下面:
由於f產生任何的D的概率都是一樣的,因此對於test data而言本身沒有任何‘規律’可言,因此無論我選用哪一個algorithm(當然,這個algorithm產生的g結果都是-1或1),對test data來說其實都是一樣的‘糟糕’。因此這個EOTS的數學期望是相等的。---這是別人的解答

(2)答案:最後一項

9.第九題

(1)題意:假設u為箱子內橙色的彈珠的比例,v為我們抽取10個計算出來的橙色彈珠比例,如果u=0.5,那麼v=u的概率

(2)分析:由於u=0.5,我們抽出10個,那麼要求抽出5個橙色的。說明:我們用C(n)(m)表示概率中從n個位置抽取m個的組合情況,則這道題可以理解為從10個位置抽取出5個位置放橙色,然後其他位置放綠色。那就是C(10)(5) * (0.5)^5 * (0.5)^5 = (10*9*8*7*6)/(1*2*3*4*5) *(0.5)^10 = 0.24

(3)答案:0.24

10.第十題

(1)題意:和上面這道題一樣,問u=0.9時,v=u的概率

(2)分析:要v=0.9,那麼久要抽出9個黃色的,而每次抽出黃的概率為u=0.9,抽出綠色概率為0.1。故抽出九個的橙色概率為:C(10)(9) * (0.9)^9 * 0.1=0.39

(3)答案:0.39

11.第十一題

(1)題意:如果u=0.9,那個v小於等於0.1的概率

(2)分析:v小於等於0.1可以分為兩種情況,v=0和v=0.1;

                   v=0.1時,C(10)(1) * 0.9 * (0.1)^9 = 9 * 10^(-9)

                   v=0時,0.1^(10) = 10^(-10)

                   共9.1 * 10^(-9)

(3)答案:9.1 * 10^(-9)

12.第十二題

(1)題意:利用Hoeffding Inequality計算 當u=0.9時v小於等於0.1的概率

(2)分析:Hoeffding Inequality為 P([v-u] 大於 epsilon) 小於等於 2* e^(-2*N*epsilon^2),N為抽樣個數,帶入計算就可以了

(3)答案:5.52 * 10^(-6)

13.第十三題

(1)題意:有四種篩子,每個篩子有六個面,標號1-6

                  A:所有偶數面被塗為橙色,所有奇數面被塗為綠色

                  B:所有奇數面被塗為橙色,所有偶數面被塗為綠色

                  C:所有1-3被塗為橙色,4-6被塗為綠色

                  D:所有1-3倍塗為綠色,4-6被塗為橙色

袋子中每種骰子的數量都有無限多個,而且每種骰子數量相同,問:一次取5個篩子,問這些篩子有,1全為橙色的概率。

(2)分析:由於只有B,C的1是橙色的,所以我們取5個要麼是B類的要麼是C類的。那麼取到骰子位B或C的概率為0.5

                   那麼,5個都為B或C的概率為:0.5^5 = 8/256

(3)答案:8/256

14.第十四題

(1)題意:抽5個篩子,那麼至少有一種數字全為橙色的概率

(2)分析:1全為橙色:B,C   2全為橙色:A,C    3全為橙色:B,C   4全為橙色:A,D    5全為橙色B,D   6全為橙色:A,D

                    即我們要不取出的全為B,C,要麼取出的全為A,C,要麼取出的全為A,D,要麼取出的全為B,D  共2^5 *4種

                    這些中,全為A,全為B,全為C,全為D被重複算了一遍,所以要減去4

                    概率為(4* 2^5  -4)/(4^5) = 31/256

(3)答案:31/256