機器學習折騰記（1）：先成功執行一個Python例子

阿新 • • 發佈：2019-02-13

最近，聽很多朋友都在說人工智慧越來越火，想要了解其中究竟，於是我就推薦了幾本書，但結果卻是，除了工程師朋友能夠勉強看下去外，其餘大部分人到最後都不得放棄了，原因是太多數學公式，太難理解了。

比如，《深度學習》這本書，算得上一本科普書了，是專門寫給一般人看的，其中也包含了大量的數學和公式。

我倒是認為，並不是因為看不懂，而是其中的數學很容激發大部分一般人的學校噩夢，想到好不容易畢業上班不用看數學了，結果又被喚起，自然讀不下去。

可數學是學習機器學習繞不開的一道關卡，必然要去解決，搞技術的人多多少少也要接觸數學，可還是很多人不想看數學。

不過，以我的經驗來看，不是沒有辦法，但要換個思路來切入，就是從學習python開始，上一篇文章

《機器學習折騰記0：開啟從Scikit-Learn入門機器學習演算法之旅》，我介紹了機器學習python環境的安裝，提到了《機器學習系統設計》這本書，並不是因為這本書好理解，而是因為他沒有像很多常規的機器學習書或文章那樣，一上來就介紹很多基礎知識，把人搞暈，而是提供了一個另類的不錯的切入思路，我們就從這本書開始。

提個好問題

作者說，機器學習（ML）就是教機器自己來完成任務。這和我們以為的機器是不是應該具備了生物智慧是不同的。

換句話說，機器學習就是一種計算機能夠執行的演算法，讓機器能夠模仿人類一樣學習知識。

既然是演算法，作者一開始還提出了幾個很好的問題：在無數的演算法中應該選擇哪一個呢？所有的設定都正確嗎？你得到最優的結果了嗎？怎麼知道有沒有更好的演算法？或者，你的資料是否就是“正確的”？

資料就是機器學習的養料，如果你認識做資料探勘或資料分析的人，他們一定能夠清晰的給你解釋什麼是機器學習，以及人工智慧的本質到底是什麼。

所以提一個好問題很重要！

核心三步法

多說一句，這本書本身就是一本是實戰書，每個小結都是一個操作步驟，你可以按部就班的看。

不過，如果你不動手去敲程式碼，只是想用隨書的程式碼的話，那很遺憾，很多時候都執行不了，可能是新版本不相容老版本，或者各種環境編譯的問題，總之，我們的目標是學到有用的東西，而不是看上去好像懂了。

對於機器學習的流程來說，就是簡單的三步法——

1、讀取資料
2、預處理和清洗資料
3、選擇正確的模型和學習演算法

很多時候，我們都把問題搞複雜了，特別是對於計算機相關書籍，常常都容易陷入實現細節中去，這也是為什麼很多人看著看著就昏了的原因，因為一開始沒有抓住最重要的核心脈絡，要是再加上數學公式，就更難看下去了。

我的建議是，先放下里面難懂的數學解釋，包括每一節的說明，先執行起來一個程式，從感性上去感受一下，機器學習在執行中是什麼樣子，就夠了。

我曾經及時一直抓住要解決實際問題這條主線而出發去學習理解演算法時，效率是非常高的，而如果從所謂的基礎學起，可能早都放棄了，先來看一下最終效果圖。

【過擬合的例子，你看懂了嗎？】

回答最初的問題

得到上面的圖是需要經過一番折騰的，我之所以省略了抄書的步驟，是因為實戰就是要你去動手敲程式碼，也是檢驗你python基礎的時候了，我們最終就會得到了一個模型，我們認為它可以最好地代表資料生成過程。

而這個模型就是機器學習的最終結果，而我們拿著這個模型就可以預測未來的資料走向發展，但可惜的時，現實中有一種叫做突變的因素存在。

還是那幾個問題：在無數的演算法中應該選擇哪一個呢？所有的設定都正確嗎？你得到最優的結果了嗎？怎麼知道有沒有更好的演算法？或者，你的資料是否就是“正確的”？

如果你依然有興趣看下去，那就一直不要忘記這幾個問題，以及你為什麼而開始去學習機器學習。

實現程式碼

如果你認真按照前一篇文章《機器學習折騰記0：開啟從Scikit-Learn入門機器學習演算法之旅》的步驟做了，下面的程式碼是一定能執行的，裡面有很多註釋程式碼，在看書時也可以一段一段的跟著試試。

#!/usr/bin/env python
# _*_ coding:utf-8 _*_

import scipy as sp
import matplotlib.pyplot as plt

# 畫圖的一些顏色和線條形狀
colors = ['g', 'k', 'b', 'm', 'r']
linestyles = ['-', '-.', '--', ':', '-']
# 定義一個畫圖的類
def plot_models(x, y, models, fname=None, mx=None, ymax=None, xmin=None):
    plt.clf()
    plt.scatter(x, y, s=10)
    plt.title("Web traffic over the last month")
    plt.xlabel("Time")
    plt.ylabel("Hits/hour")
    plt.xticks(
        [w * 7 * 24 for w in range(10)], ['week %i' % w for w in range(10)])

    if models:
        if mx is None:
            mx = sp.linspace(0, x[-1], 1000)
        for model, style, color in zip(models, linestyles, colors):
            # print "Model:",model
            # print "Coeffs:",model.coeffs
            plt.plot(mx, model(mx), linestyle=style, linewidth=2, c=color)

        plt.legend(["d=%i" % m.order for m in models], loc="upper left")

    plt.autoscale(tight=True)
    plt.ylim(ymin=0)
    if ymax:
        plt.ylim(ymax=ymax)
    if xmin:
        plt.xlim(xmin=xmin)
    plt.grid(True, linestyle='-', color='0.75')
    # plt.show() # 這個是會阻塞的，看最後一個，就在程式碼最後加
    # plt.savefig(fname)
def error(f, x, y):
    return sp.sum((f(x)-y)**2)




data = sp.genfromtxt("web_traffic.tsv", delimiter="\t")
print(data[:10]) #列印前10個數據
print(data.shape)

# 預處理和清洗資料
x = data[:,0] #對應第1列
y = data[:,1] #對應第2列

isnan_num = sp.sum(sp.isnan(y))
print(isnan_num)

x = x[~sp.isnan(y)]  #這裡是取反操作，y值為空則不取
y = y[~sp.isnan(y)]

# import matplotlib.pyplot as plt
# plt.scatter(x,y)
# plt.title("Web traffic over the last month")
# plt.xlabel("Time")
# plt.ylabel("Hits/hour")
# plt.xticks([w*7*24 for w in range(10)],['week %i'%w for w in range(10)])
# plt.autoscale(tight=True)
# plt.grid()
# plt.show()

fp1, residuals, rank, sv, rcond = sp.polyfit(x, y, 1, full=True)

print("Model parameters: %s" % fp1)
# print(res)
#f(x) = 2.59619213 * x + 989.02487106

f1 = sp.poly1d(fp1)
print(error(f1, x, y))

fx = sp.linspace(0,x[-1], 1000) # 生成X值用來作圖
# plt.plot(fx, f1(fx), linewidth=4,color='green')
# plt.legend(["d=%i" % f1.order], loc="upper left")
# plt.grid()
# plt.show() #
plot_models(x, y, None)

# d=2
f2p = sp.polyfit(x, y, 2)
print(f2p)
f2 = sp.poly1d(f2p)
print(error(f2, x, y))
# plt.plot(fx, f2(fx), linewidth=3, color='red')
# plt.legend(["d=%i" % f2.order], loc="upper left")

#d=3
f3p = sp.polyfit(x, y, 3)
print(f3p)
f3 = sp.poly1d(f3p)
print(error(f3, x, y))
# plt.plot(fx, f3(fx), linewidth=3, color='black')
# plt.legend(["d=%i" % f3.order], loc="upper left")

#d=10
f10p = sp.polyfit(x, y, 10)
print(f10p)
f10 = sp.poly1d(f10p)
print(error(f10, x, y))
# plt.plot(fx, f10(fx), linewidth=3, color='gray')
# plt.legend(["d=%i" % f10.order], loc="upper left")

#d=100
f100p = sp.polyfit(x, y, 100)
print(f100p)
f100 = sp.poly1d(f100p)
print(error(f100, x, y))
# plt.plot(fx, f100(fx), linewidth=3, color='yellow')
# plt.legend(["d=%i" % f100.order], loc="upper left")

plot_models(
    x, y, [f1, f2, f3, f10, f100])

inflection = 3*7*24 # 計算拐點的小時數，書中3.5要報錯，改為3
xa = x[:inflection] # 拐點之前的資料
ya = y[:inflection]
xb = x[inflection:] # 之後的資料
yb = y[inflection:]
fa = sp.poly1d(sp.polyfit(xa, ya, 1))
fb = sp.poly1d(sp.polyfit(xb, yb, 1))
fa_error = error(fa, xa, ya)
fb_error = error(fb, xb, yb)
# print("Error inflection=%f" % (fa + fb_error))

# plot_models(x, y, [fa, fb])

# plt.plot(fx, fa(fx), linewidth=3, color='c')
# plt.legend(["d=%i" % fa.order], loc="upper left")
# plt.plot(fx, fb(fx), linewidth=3, color='c')
# plt.legend(["d=%i" % fb.order], loc="upper left")

plot_models(x, y, [f1, f2, f3, f10, f100], None,
    mx=sp.linspace(0 * 7 * 24, 6 * 7 * 24, 100),
    ymax=10000, xmin=0 * 7 * 24)

frac = 0.3
split_idx = int(frac * len(xb))
shuffled = sp.random.permutation(list(range(len(xb))))
test = sorted(shuffled[:split_idx])
train = sorted(shuffled[split_idx:])
fbt1 = sp.poly1d(sp.polyfit(xb[train], yb[train], 1))
fbt2 = sp.poly1d(sp.polyfit(xb[train], yb[train], 2))
fbt3 = sp.poly1d(sp.polyfit(xb[train], yb[train], 3))
fbt10 = sp.poly1d(sp.polyfit(xb[train], yb[train], 10))
fbt100 = sp.poly1d(sp.polyfit(xb[train], yb[train], 100))

plot_models(
    x, y, [fbt1, fbt2, fbt3, fbt10, fbt100], None,
    mx=sp.linspace(0 * 7 * 24, 6 * 7 * 24, 100),
    ymax=10000, xmin=0 * 7 * 24)

from scipy.optimize import fsolve
print(fbt2)
print(fbt2 - 100000)
reached_max = fsolve(fbt2 - 100000, 800) / (7 * 24)
print("100,000 hits/hour expected at week %f" % reached_max[0])


plt.show() # 只看最後一個時開啟

小結

你可能也發現了，不管是使用現成的機器學習庫，還是自己重複造輪子實現演算法，最終花更多精力的是在資料上，更重要的是理解資料和提煉資料。

換句話說，最重要的是的對資料的分析，就像我們學習知識一樣，理解知識，提煉知識才是更重要的。

而我們要學習的就是不同的演算法在對資料的處理，以及如何優化這些演算法，同時還要結合自己的應用場景來具體分析，不要讓“更多看上去很厲害的演算法”分散了你的注意力。

參考資源

1、《機器學習系統設計》
2、《Python語言指南》

機器學習折騰記（1）：先成功執行一個Python例子

最近，聽很多朋友都在說人工智慧越來越火，想要了解其中究竟，於是我就推薦了幾本書，但結果卻是，除了工程師朋友能夠勉強看下去外，其餘大部分人到最後都不得放棄了，原因是太多數學公式，太難理解了。比如，《深度學習》這本書，算得上一本科普書了，是專門寫給一般人看的，其

機器學習練習記錄（1）：偽逆法、勢函式、基於二次準則的H-K函式、感知器法

勢函式的構造是人工勢場方法中的關鍵問題，典型的勢函式構造方法：P(θ)=f{d(θ,θ0),[dR(θ),O],dT}(1)，式中 θ，θ0——機器人當前位姿與目標位姿向量；d(θ,θ0)——θ與θ0間的某種廣義距離函式；dR(θ)，O——當前位姿下機器人與障礙物間的最小距離；dT——給定的門限值；P(θ)

Python學習手冊筆記（1）：Python對象類型

python 在Python中一切皆對象，Python程序可以分解為模塊、語句、表達式及對象。如下所示：1 程序由模塊組成2 模塊包含語句3 語句包含表達式4 表達式建立並處理對象內置對象（核心類型）：1）數字：>>> 2+2 #整數加法4>>&g

Pro Android學習筆記 ActionBar（1）：Home圖標區

ces tom 新的方便 find rac vertica lba manifest ?? Pro Android學習筆記（四八）：ActionBar（1）：Home圖標區 2013年03月10日 ? 綜合 ? 共 3256字 ? 字號小中大 ? 評論關閉

中國mooc北京理工大學機器學習第二周（一）：分類

kmeans 方法輸入 nump arr mod 理工大學 each orm 一、K近鄰方法（KNeighborsClassifier）使用方法同kmeans方法，先構造分類器，再進行擬合。區別是Kmeans聚類是無監督學習，KNN是監督學習，因此需要劃分出訓練集和測試

我的機器學習之旅（四）：回歸與工程應用

多個算法 ati function RR numpy pen 圖片 bsp 內容:線性回歸；邏輯回歸，應用場景。一、線性回歸有監督學習，根據學習樣本{x->y},學習一個映射f：X->Y(線性相關),輸出預測結果y_i。最簡單的例子：y=ax+b 重要組成

我的機器學習之旅（六）：決策樹

family 分配根據 drop chrom labels arch ntp -o 決策樹概念：分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種類型：內部節點和葉節點，內部節點表示一個特征或屬性，葉節點表示一個類。分類的時候，從根

機器學習實戰教程（一）：線性回歸基礎篇（上）

學習 reg style spa 目標 pub auto 機器輸入一什麽是回歸？　　回歸的目的是預測數值型的目標值，最直接的辦法是依據輸入，寫入一個目標值的計算公式。　　假如你想預測小姐姐男友汽車的功率，可能會這麽計算：　　　　　　　　　　　　　　Ho

HIT機器學習期末複習（1）——機器學習簡介及決策樹

劉楊的機器學習終於上完了惹，下週就要考試了，趕緊複習ing...... 趁機做個總結，就當是複習了惹...... 機器學習簡介 1、什麼是機器學習簡單來說，就是一個三元組<P, T, E> P——performance效能（對應著效能的評估函式，也就是常說的loss或者likeli

機器學習速成筆記（二）：訓練與損失

訓練模型通過有標籤樣本來學習（確定）所有的權重和偏差的理想值。損失是對槽糕預測的懲罰，損失是一個數值，模型的預測完全正確，則損失為零，反之，模型的預測越槽糕，損失越大。平方損失：一種常見的損失函式，線性迴歸模型就是使用該平方損失均方誤差：每個樣本的平均平方損失，計算均方誤差，要算出

機器學習速成筆記（一）：主要術語

機器學習研究如何通過計算的方式，利用資料集來改善系統自身的效能。而深度學習是屬於機器學習的一個子分支。機器學習的通用的兩種型別：無監督學習：事先並沒有任務訓練資料的樣本，需要直接對資料進行建模型。監督學習：通過已經有的訓練樣本（即輸入資訊和對應的輸出）來訓練，得到一個

機器學習基本知識（二）：邏輯迴歸

一、分類和迴歸迴歸(Regression)和分類(Classification)是機器學習中的兩大類問題，迴歸問題的輸出是連續的，而分類的輸出則是代表不同類別的有限個離散數值。

吳裕雄 python 機器學習-KNN演算法（1）

import numpy as np import operator as op from os import listdir def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] diffMat

機器學習與Tensorflow（1）——機器學習基本概念、tensorflow實現簡單線性迴歸

一、機器學習基本概念 1.訓練集和測試集訓練集(training set/data)/訓練樣例（training examples): 用來進行訓練，也就是產生模型或者演算法的資料集測試集(testing set/data)/測試樣例 (testing examples)：用來專門進行測試已經學習好

機器學習與Tensorflow（1）——機器學習基本概念、tensorflow實現簡單線性回歸

gradient 計算 gre alt ssi date upd tput test 一、機器學習基本概念 1.訓練集和測試集訓練集(training set/data)/訓練樣例（training examples): 用來進行訓練，也就是產生模型或者算法的數據集測試

機器學習實戰教程（三）：決策樹實戰篇之為自己配個隱形眼鏡

原文連結：cuijiahua.com/blog/2017/1… 一、前言上篇文章機器學習實戰教程（二）：決策樹基礎篇之讓我們從相親說起講述了機器學習決策樹的原理，以及如何選擇最優特徵作為分類特徵。本篇文章將在此基礎上進行介紹。主要包括：決策樹構建決策樹視覺化使用決

程式設計師的機器學習入門筆記（七）：推薦系統入門介紹

介紹背景隨著網際網路行業的井噴式發展，獲取資訊的方式越來越多，人們從主動獲取資訊逐漸變成了被動接受資訊，資訊量也在以幾何倍數式爆發增長。舉一個例子，PC時代用google reader，常常有上千條未讀部落格更新；如今的微信公眾號，也有大量的紅點未閱

機器學習基礎--math（1）--解析解

解析解/閉式解　　解析解(analytical solution)就是一些嚴格的公式，給出任意的自變數就可以求出其因變數，也就是問題的解，他人可以利用這些公式計算各自的問題。　　解析解也被稱為閉式解(closed-form expression)。

機器學習之迴歸（1）線性迴歸

# -*- coding: utf-8 -*- """ Created on Sun Apr 15 16:18:34 2018 @author: Administrator """ import matplotlib.pyplot as plt #pyplo

《機器學習實戰》（1）kNN小結（小白教學，每行程式碼都有註釋）

最近入坑了機器學習，為了快速提高自己的機器學習的程式碼能力，入坑了《機器學習實戰》，目前只學習了第一個重要演算法:k近鄰演算法（kNN），在學習過程中發現許多相關的學習資料要麼程式碼是python2的，要麼程式碼的解釋不夠詳細，對於像我這樣的菜雞而言苦不堪言，為了後來者不踩我

機器學習折騰記（1）：先成功執行一個Python例子

提個好問題

核心三步法

回答最初的問題

實現程式碼

小結

參考資源

相關推薦