機器學習--手寫數字識別（KNN、決策樹）

阿新 • • 發佈：2019-01-13

KNN 及決策樹演算法為監督學習中的兩種簡單演算法。

KNN

KNN演算法（鄰近演算法）的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的特性。
歐式距離的計算公式:

假設每個樣本有兩個特徵值，如 A ：（a1，b1）B：（a2，b2）則AB的歐式距離為

$d = \sqrt{(}$

a 1 − a 2 ) 2 +

( b 1 − b 2 ) 2

d=\sqrt{(a1-a2)^2 +(b1-b2)^2}

d = (a 1 - a 2)^{2} + (b 1 - b 2)^{2}

例如：根據消費分配來預測性格

在這裡插入圖片描述

已知張三美食消費為110、衣服消費為190、文具消費為30，張三的性格為活潑。…
根據前3個樣本我們算出歐式距離

$d=\sqrt{(110-90)^2+(190-100)^2+(140-30)^2}=143$
$d=\sqrt{(90-30)^2+(100-100)^2+(200-140)^2}=26$
$d=\sqrt{(90-88)^2+(200-100)^2+(140-24)^2}=153$
…

尋找d的最近鄰居為143和153，推測出劉二的性格為活潑

決策樹

決策樹是一種樹形結構，其中每個內部節點表示一個屬性上的測試，每個分支代表一個測試輸出，每個葉節點代表一種類別。

每個決策樹都表述了一種樹型結構，它由它的分支來對該型別的物件依靠屬性進行分類。每個決策樹可以依靠對源資料庫的分割進行資料測試。這個過程可以遞迴式的對樹進行修剪。當不能再進行分割或一個單獨的類可以被應用於某一分支時，遞迴過程就完成了。

例項

%matplotlib inline

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from IPython.display import display

X = []
y = []

for i in range(0,10):
    for j in range(1,701):
        digit = plt.imread('./database/%d/1 (%d).bmp'%(i,j))
        X.append(digit)
        y.append(i)
  
X = np.array(X)
y = np.array(y)
X.shape

index = np.random.randint(0,7000,size=1)[0]
digit = X[index]
plt.figure(figsize=(1,1))
plt.imshow(digit,cmap='gray')
print("true：%d"%(y[index]))

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.1)

X_train.shape

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train.reshape([6300,28*28]),y_train)
knn.score(X_test.reshape([-1,28*28]),y_test)


y_ = knn.predict(X_test.reshape([-1,28*28]))
display(y_[:20],y_test[:20])

X.reshape(7000,-1).shape

#KNN演算法實現預測
plt.figure(figsize=(10*1,10*1.5))
for i in range(100):
    axes = plt.subplot(10,10,i+1)
    axes.imshow(X_test[i],cmap='gray')
    t = y_test[i]
    p = y_[i]
    axes.set_title('True:%d\nPred:%d'%(t,p))
    axes.axis('off')
    
#決策樹實現預測
##深度為50

plt.figure(figsize=(10*1,10*1.5))
for i in range(100):
    axes = plt.subplot(10,10,i+1)
    axes.imshow(X_test[i],cmap='gray')
    t = y_test[i]
    p = y_[i]
    axes.set_title('True:%d\nPred:%d'%(t,p))
    axes.axis('off')

tree = DecisionTreeClassifier(max_depth=50)

tree.fit(X_train.reshape(6300,-1),y_train)

y_ = tree.predict(X_test.reshape([-1,28*28]))
tree.score(X_test.reshape([-1,28*28]),y_test)

##深度為150

plt.figure(figsize=(10*1,10*1.5))

for i in range(100):
    axes = plt.subplot(10,10,i+1)
    axes.imshow(X_test[i],cmap='gray')
    t = y_test[i]
    p = y_[i]
    axes.set_title('True:%d\nPred:%d'%(t,p))  
    axes.axis('off')


tree = DecisionTreeClassifier(max_depth=150)
tree.fit(X_train.reshape(6300,-1),y_train)
y_ = tree.predict(X_test.reshape([-1,28*28]))
tree.score(X_test.reshape([-1,28*28]),y_test)

機器學習--手寫數字識別（KNN、決策樹）

KNN 及決策樹演算法為監督學習中的兩種簡單演算法。 KNN KNN演算法（鄰近演算法）的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的特性。歐式距離的計算公式: 假設每個樣本有兩個特徵值，如 A

機器學習實戰例項之手寫數字識別（KNN、python3）

from numpy import * from os import listdir import operator def img2Vector(filename): returnVecter = zeros((1,1024)) fr = open(fil

（參評）機器學習筆記——鳶尾花資料集（KNN、決策樹、樸素貝葉斯分析）

最開始選取鳶尾花資料集來了解決策樹模型時，筆者是按照學習報告的形式來寫得，在這裡將以原形式上傳。格式較為繁複，希望讀者可以耐心看完，謝謝大家。目錄 6.總結 7.問題 1、問題描述 iris是鳶尾植物，這裡儲存了其萼片和花瓣的長寬，共4個屬性，鳶尾

Kaggle競賽丨入門手寫數字識別之KNN、CNN、降維

引言這段時間來，看了西瓜書、藍皮書，各種機器學習演算法都有所瞭解，但在實踐方面卻缺乏相應的鍛鍊。於是我決定通過Kaggle這個平臺來提升一下自己的應用能力，培養自己的資料分析能力。我個人的計劃是先從簡單的資料集入手如手寫數字識別、泰坦尼克號、房價預測，這些目前已經有豐富且成熟的方案可以參考，之後關注未來

各種機器學習方法（線性迴歸、支援向量機、決策樹、樸素貝葉斯、KNN演算法、邏輯迴歸）實現手寫數字識別並用準確率、召回率、F1進行評估

本文轉自：http://blog.csdn.net/net_wolf_007/article/details/51794254 前面兩章對資料進行了簡單的特徵提取及線性迴歸分析。識別率已經達到了85%，完成了數字識別的第一步：資料探測。這一章要做的就各

機器學習筆記 -吳恩達（第七章：邏輯迴歸-手寫數字識別，python實現附原始碼）

（1）資料集描述使用邏輯迴歸來識別手寫數字（0到9）。將我們之前的邏輯迴歸的實現，擴充套件到多分類的實現。資料集是MATLAB的本機格式，要載入它到Python，我們需要使用一個SciPy工具。影象在martix X中表示為400維向量（其中有5,000個）, 400

MachineLearning— (KNN)k Nearest Neighbor實現手寫數字識別（三）

本篇博文主要結合前兩篇的knn演算法理論部分knn理論理解（一）和knn理論理解（二），做一個KNN的實現，主要是根據《機器學習實戰》這本書的內容，一個非常經典有趣的例子就是使用knn最近鄰演算法來實現對手寫數字的識別，下面將給出Python程式碼，儘量使用詳盡的解

Matlab實現手寫數字識別（PCA+KNN）

</pre><pre name="code" class="plain">clear; addpath('../data/'); % images_train = loadMNISTImages('train-images-idx3-ubyte')'

KNN演算法——實現手寫數字識別（Sklearn實現）

KNN專案實戰——手寫數字識別 1、資料集介紹需要識別的數字已經使用圖形處理軟體，處理成具有相同的色彩和大小：寬高是32畫素x32畫素的黑白影象。儘管採用本文格式儲存影象不能有效地利用記憶體空間，但是為了方便理解，我們將圖片轉換為文字格式。數字的文字格式如下：

MNIST手寫數字識別（二）幾種模型優化方式介紹

本篇的主要內容有：動態衰減法設定可變學習率為損失函式新增正則項滑動平均模型介紹為了讓MNIST數字識別模型更準確，學習幾種常用的模型優化手段：學習率的優化學習率的設定一定程度上也會影響模型的訓練，如果學習率過小，那麼將會經過很長時間才會收斂到想要

MNIST手寫數字識別（三）應用優化

本篇的主要內容應用三種優化方式，對之前的模型進行優化介紹一些在程式中用到的函式學習於《TensorFlow實戰Google深度學習框架》一書程式相比於第一次的簡單邏輯迴歸模型，這一次的調整了網路結構，添加了一個500個節點的隱藏層，在結構中，設定了

基於opencv的手寫數字識別（MFC,HOG,SVM）

因為本程式是提取HOG特徵，使用SVM進行分類的，所以大概瞭解下HOG的一些知識，其中我覺得怎麼計算影象HOG特徵的維度會對程式瞭解有幫助關於HOG，我們可以參考： http://gz-ricky.blogbus.com/logs/85326

基於tensorflow的MNIST手寫數字識別（二）--入門篇

一、本文的意義因為谷歌官方其實已經寫了MNIST入門和深入兩篇教程了，那我寫這些文章又是為什麼呢，只是抄襲？那倒並不是，更準確的說應該是筆記吧，然後用更通俗的語言來解釋，並且補充

手寫數字識別（一）

在學習識別手寫輸入數字時，初始化矩陣那裡，有點不理解。原始碼是這樣的：self.biases=[np.random.randn(y,1) for y in sizes[1:]] '''建立一個偏差向量''' self.weights=[np.random.ra

MNIST資料集實現手寫數字識別（基於tensorflow）

主要應用了下面幾個方法來提高準確率; 使用隨機梯度下降（batch）使用Relu啟用函式去線性化使用正則化避免過擬合使用帶指數衰減的學習率使用滑動平均模型使用交叉熵損失函式來刻畫預測值和真實值之間的差距的損失函式第一步，匯入MNIST資料集 from

手把手教你搭建caffe及手寫數字識別（Ubuntu下且附mac、純通俗教程）

手把手教你搭建caffe及手寫數字識別作者：七月線上課程助教團隊，驍哲、小蔡、李偉、July時間：二零一六年十一月九日交流：深度學習實戰交流Q群 472899334，有問題可以加此群共同交流。另探究實驗背後原理，請參看此課程：深度學習線上班。一、前言在前面的教程中，我

MNIST 手寫數字識別（一）

MNIST 手寫數字識別模型建立與優化本篇的主要內容有： TensorFlow 處理MNIST資料集的基本操作建立一個基礎的識別模型介紹 SoftmaxSoftmaxSoftmax迴歸以及交叉熵等 MNIST是一個很有名的手寫數字識別資料集（基本可以算

TensorFlow MNIST資料集手寫數字識別（並解決MNIST資料集下載問題）

本篇部落格主要介紹通過TensorFlow實現MNIST資料集的手寫數字識別。準備資料：首先需要獲取資料，可以通過以下程式碼進行獲取：from tensorflow.examples.tutorials.mnist import input_data # 獲取資料,numbe

C++從零實現深度神經網路之六——實戰手寫數字識別（sigmoid和tanh）

本文由@星沉閣冰不語出品，轉載請註明作者和出處。之前的五篇部落格講述的內容應該覆蓋瞭如何編寫神經網路的大部分內容，在經過之前的一系列努力之後，終於可以開始實戰了。試試寫出來的神經網路怎麼樣吧。一、資料準

基於tensorflow的MNIST手寫數字識別（三）--神經網路篇

想想還是要說點什麼抱歉啊，第三篇姍姍來遲，確實是因為我懶，而不是忙什麼的，所以這次再加點料，以表示我的歉意。廢話不多說，我就直接開始講了。加入神經網路的意義前面也講到了，使用普通的訓練方法，也可以進行識別，但是識別的精度不夠高，

機器學習--手寫數字識別（KNN、決策樹）

KNN

決策樹

例項

相關推薦