Coursera機器學習基石作業二python實現

阿新 • • 發佈：2018-11-12

##機器學習基石作業二
在這裡插入圖片描述

下面的程式碼是17、18題的結合：

import numpy as np
import random
class decisonStump(object):
    def __init__(self,dimension,data_count,noise):
        self.dimension=dimension
        self.data_count=data_count
        self.noise=noise
    def generate_dataset(self):
        dataset=np.zeros((self.data_count,self.dimension+1))
        for i in range(self.data_count):
            x=random.uniform(-1,1)
            line=[]
            line.append(x)
            y=np.sign(x)*np.sign(random.uniform(0,1)-self.noise)
            line.append(y)
            dataset[i:]=line
        return dataset
    def get_theta(self,dataset):
        l=np.sort(dataset[:,0])
        theta=np.zeros((self.data_count,1))
        for i in range(self.data_count-1):
            theta[i]=(l[i]+l[i+1])/2
        theta[-1]=1
        return theta
    def question1718(self):
        sum_e_in = 0
        sum_e_out=0
        for i in range(5000):
            dataset = self.generate_dataset()
            theta=self.get_theta(dataset)
            e_in = np.zeros((2, self.data_count))
            for j in range(self.data_count):
                a=dataset[:,1]*np.sign(dataset[:,0]-theta[j])
                e_in[0][j] = (self.data_count - np.sum(a)) / (2 * self.data_count)  # 陣列只有-1和+1，可直接計算出-1所佔比例
                e_in[1][j] = (self.data_count - np.sum(-a)) / (2 * self.data_count)
            min0, min1 = np.min(e_in[0]), np.min(e_in[1])
            s=0
            theta_best=0
            if min0 < min1:
                s = 1
                theta_best = theta[np.argmin(e_in[0]),0]
                sum_e_in+=min0
            else:
                s = -1
                theta_best = theta[np.argmin(e_in[1]),0]
                sum_e_in+=min1
            e_out=0.5+0.3*s*(np.abs(theta_best)-1)
            sum_e_out+=e_out
        print(sum_e_in/5000,sum_e_out/5000)


if __name__=='__main__':
    decision=decisonStump(1,20,0.2)
    decision.question1718()

在這裡插入圖片描述

下面的程式碼是19、20題的結合：

import numpy as np

class decisonStump(object):
    def get_train_dataset(self,path):
        with open(path,'r') as f:
            rawData=f.readlines()
        dimension=len(rawData[0].strip().split(' '))-1
        data_count=len(rawData)
        data_set=np.zeros((data_count,dimension+1))
        for i in range(data_count):
            data_set[i:]=rawData[i].strip().split(' ')
        return data_set,dimension,data_count
    def get_theta(self,dataset):
        data_count=len(dataset)
        l=np.sort(dataset)
        theta=np.zeros((data_count,1))
        for i in range(data_count-1):
            theta[i]=(l[i]+l[i+1])/2
        theta[-1]=1
        return theta
    def question19(self):
        dataset,dimension,data_count=self.get_train_dataset('hw2_train.dat.txt')
        s1=[]
        theta_best1=[]
        E_in=[]
        for i in range(dimension):
            theta=self.get_theta(dataset[:,i])
            e_in = np.zeros((2, data_count))
            for j in range(data_count):
                a=dataset[:,-1]*np.sign(dataset[:,i]-theta[j])
                e_in[0][j] = (data_count - np.sum(a)) / (2 * data_count)  # 陣列只有-1和+1，可直接計算出-1所佔比例
                e_in[1][j] = (data_count - np.sum(-a)) / (2 * data_count)
            min0,min1=np.min(e_in[0,:]),np.min(e_in[1,:])
            if min0>=min1:
                s1.append(-1)
                theta_best1.append(theta[np.argmin(e_in[1])])
            else:
                s1.append(1)
                theta_best1.append(theta[np.argmin(e_in[0])])
            E_in.append(np.min(np.min(e_in)))
        minS=s1[np.argmin(E_in)]
        minTheta=theta_best1[np.argmin(E_in)]
        print(np.min(E_in))
        return minS,minTheta
    def question20(self):
        s,theta=self.question19()
        dataset, dimension, data_count = self.get_train_dataset('hw2_test.dat.txt')
        E_out=[]
        for i in range(dimension):
            a=dataset[:,-1]*np.sign(dataset[:,i]-theta)*s
            e_out=(data_count-np.sum(a))/(2*data_count)
            E_out.append(e_out)
        print(np.min(E_out))



if __name__=='__main__':
    decision=decisonStump()
    decision.question20()

Coursera機器學習基石作業二python實現

##機器學習基石作業二下面的程式碼是17、18題的結合： import numpy as np import random class decisonStump(object): def __init__(self,dimension,data_count,noise)

Coursera機器學習基石作業一python實現

機器學習基石作業一 import numpy as np def train_matrix(): with open("hw1_15_train.dat.txt","r") as f: rawData=f.readlines() dataNum

機器學習基石作業四python實現

總體來說，13-20題總的框架都是一樣，因此程式碼都集中在一起。 import numpy as np def getData(path): with open(path,'r') as fr: rawData=fr.readlines()

機器學習基石作業三python實現

問題6，7，8，10程式碼實現如下： import numpy as np def E(u,v): return np.exp(u)+np.exp(2*v)+np.exp(u*v)+u*u-2*u*v+2*v*v-3*u-2*v def gradU(func,u

機器學習基石作業二

機器學習基石作業二計算一下本來預測對與預測錯時加上噪音導致的錯誤率然後相加即可。選擇一個 λ

林軒田-機器學習基石-作業3-python原始碼

大家好，以下是林軒田機器學習基石--作業3的Python的參考程式碼，自己碼的。Python方面沒有工程經驗，如有錯誤或者更好的程式碼優化方法，麻煩大家留言提醒一下下，大家互相交流學習，謝謝。 13-15題主要考察在分類問題上的線性迴歸和特徵轉換，所使用的樣

機器學習基石—作業2（16-20題Python實現）

import numpy as np from numpy import random def sign(x):#自定義符號函式，只返回-1，+1 ret=np.ones(x.shape) for i,each in enumerate(x):

機器學習基石(Machine Learning Foundations) 機器學習基石作業三 Q13-15 C++實現

大家好，我是Mac Jiang,今天和大家分享Coursera-NTU-機器學習基石（Machine Learning Foundations）-作業三 Q6-10的C++實現。雖然有很多大神已經在很多部落格中給出了Phython的實現，但是給出C++實現的

機器學習基石作業1 實現PLA和Pocket演算法

使用numpy計算一個向量自加的時候遇到了奇怪的bug，W += X會改變另一個向量W_p的值，而W = W + X卻沒這個問題，無法理解。 pla的訓練資料 https://d396qusza40orc.cloudfront.net/ntumlone%2Fhw1%2Fhw

機器學習基石(Machine Learning Foundations) 機器學習基石作業四 Q13-20 MATLAB實現

大家好，我是Mac Jiang,今天和大家分享Coursera-NTU-機器學習基石（Machine Learning Foundations）-作業四 Q13-20的MATLAB實現。以前的程式碼都是通過C++實現的，但是發現C++實現這些程式碼太麻煩，這

機器學習基石(Machine Learning Foundations) 機器學習基石作業三 Q18-20 C++實現

大家好，我是Mac Jiang,今天和大家分享Coursera-NTU-機器學習基石（Machine Learning Foundations）-作業三 Q18-20的C++實現。雖然有很多大神已經在很多部落格中給出了Phython的實現，但是給出C++實現

機器學習基石作業1（翻譯更新ing）

排列組合 str alt 圖片組合技術分享簡單的作業1 註意前面幾道簡單的選擇題就不說了自己代數進去 ①令N = 11，L = 5先算OTS，再代到四個選項中 ②令N = 10，L = 5繼續然後可以得出第三個是對的，註意看清楚向上取整還是向下取整 D

機器學習實戰——決策樹Python實現問題記錄

問題：NameError: name 'reload' is not defined import imp import trees imp.reload(trees) 結論：已經匯入過的模組才能用reload, reload的引數應該是模組名，而不是檔名。在pyhton3.x中要先匯入檔案

Coursera機器學習基石筆記week4

Feasibility of Learning Learning is Impossible？我們想要在D以外的資料中更接近目標函式似乎是做不到的，只能保證對D有很好的分類結果。機器學習的這種特性被稱為沒有免費午餐（No Free Lunch）定理。NFL定理表明沒有一個學習演

Coursera機器學習基石筆記week3

Types of Learning Learning with Different Output Space Y 機器學習按照輸出空間劃分的話，包括二元分類、多元分類、迴歸、結構化學習等不同的型別。其中二元分類和迴歸是最基礎、最核心的兩個型別。 Learning with D

Coursera機器學習基石筆記Week2

Learning to Answer Yes/No Perceptron Hypothesis Set(感知機) 銀行是否給使用者發信用卡的例子，我們把使用者的個人資訊作為特徵向量x，令總共有d個特徵，每個特徵賦予不同的權重w，表示該特徵對輸出（是否發信用卡）的影響有多大。那所有

Coursera機器學習基石筆記Week1

The Learning Problem What is Machine learning？ machine learning： improving some performance measure with experience computed from data。

Coursera機器學習基石筆記week7

The VC Dimension Definition of VC Dimension VC dimension就是滿足成長函式 2

機器學習基石作業一

機器學習基石作業一 1-5 省略測試N和N+L分別為奇偶的情況。選擇兩個都是向下取整的。因為 D

機器學習基石作業0

機器學習基石作業0 1 Probability and Statistics 2 Linear Algebra 3 Caculus 網上沒找到作業0的答案，這是自己做的版本，有一些可能會有錯誤，歡迎討論。 1 P

Coursera機器學習基石作業二python實現

相關推薦