Python實現knn演算法手寫數字識別

阿新 • • 發佈：2019-02-17

KNN實現手寫數字識別

1 - 匯入模組

import numpy as np
import matplotlib.pyplot as plt
from PIL import  Image

%matplotlib inline

2 - 匯入資料及資料預處理

因為我下載的mnist資料是*.gz格式的，所以為了方便讀取資料就是用了TensorFlow提供的模組。

import tensorflow as tf

# Import MNIST data
from tensorflow.examples.tutorials.mnist import input_data

def 
 load_digits():
    mnist = input_data.read_data_sets("path/", one_hot=True)
    return mnist
mnist = load_digits()

輸出結果

Extracting C:/Users/marsggbo/Documents/Code/ML/TF Tutorial/data/MNIST_data\train-images-idx3-ubyte.gz
Extracting C:/Users/marsggbo/Documents/Code/ML/TF Tutorial/data/MNIST_data\train-labels-idx1-ubyte.gz
Extracting C:/Users/marsggbo/Documents/Code/ML/TF Tutorial/data/MNIST_data\t10k-images-idx3-ubyte.gz
Extracting C:/Users/marsggbo/Documents/Code/ML/TF Tutorial/data/MNIST_data\t10k-labels-idx1-ubyte.gz

資料維度

print("Train: "+ str(mnist.train.images.shape))
print("Train: "+ str(mnist.train.labels.shape))
print("Test: "+ str(mnist.test.images.shape))
print("Test: "+ str(mnist.test.labels.shape))

輸出結果

Train: (55000, 784)
Train: (55000, 10)
Test: (10000, 784)
Test: (10000, 10)

mnist資料採用的是TensorFlow的一個函式進行讀取的，由上面的結果可以知道訓練集資料X_train有55000個，每個X的資料長度是784（28*28）。

x_train, y_train, x_test, y_test = mnist.train.images, mnist.train.labels, mnist.test.images, mnist.test.labels

展示手寫數字

nums = 6
for i in range(1,nums+1):
    plt.subplot(1,nums,i)
    plt.imshow(x_train[i].reshape(28,28), cmap="gray")

輸出結果

這裡寫圖片描述

3 - 構建模型

class Knn():

    def __init__(self,k):
        self.k = k
        self.distance = {}


    def topKDistance(self, x_train, x_test):
        '''
        計算距離，這裡採用歐氏距離
        '''    
        print("計算距離...")
        distance = {}
        for i in range(x_test.shape[0]):
            dis1 = x_train - x_test[i]
            dis2 = np.sqrt(np.sum(dis1*dis1, axis=1))
            # 取最近的k個索引
            distance[str(i)] = np.argsort(dis2)[:self.k]
            if i%1000==0:
                print(distance[str(i)])
        return distance

    def predict(self, x_train, y_train, x_test):
        '''
        預測
        '''
        self.distance = self.topKDistance(x_train, x_test)
        y_hat = []
        print("選出每項最佳預測結果")

        for i in range(x_test.shape[0]):
            classes = {}
            for j in range(self.k):
                # 找出前k個元素中相同元素最多的一個
                num = np.argmax(y_train[self.distance[str(i)][j]])
                classes[num] = classes.get(num, 0) + 1
            sortClasses = sorted(classes.items(), key= lambda x:x[1], reverse=True)
            y_hat.append(sortClasses[0][0])
        y_hat = np.array(y_hat).reshape(-1,1)
        return y_hat

    def fit(self, x_train, y_train, x_test, y_test):
        '''
        計算準確率
        '''
        print("預測...")
        y_hat = self.predict(x_train, y_train, x_test)
#         index_hat  =np.argmax(y_hat , axis=1)
        print("計算準確率...")
        index_test = np.argmax(y_test, axis=1).reshape(1,-1)
        accuracy = np.sum(y_hat.reshape(index_test.shape) == index_test)*1.0/y_test.shape[0]
        return accuracy, y_hat

clf = Knn(10)
accuracy, y_hat = clf.fit(x_train,y_train,x_test,y_test)
print(accuracy)

預測...
計算距離...
[48843 33620 11186 22059 42003  9563 39566 10260 35368 31395]
[54214  4002 11005 15264 49069  8791 38147 47304 51494 11053]
[46624 10708 22134 20108 48606 19774  7855 43740 51345  9308]
[ 8758 47844 50994 45610  1930  3312 30140 17618   910 51918]
[14953  1156 50024 26833 26006 38112 31080  9066 32112 41846]
[45824 14234 48282 28432 50966 22786 40902 52264 38552 44080]
[24878  4655 20258 36065 30755 15075 35584 12152  4683 43255]
[48891 20744 47822 53511 54545 27392 10240  3970 25721 30357]
[  673 17747 33803 20960 25463 35723   969 50577 36714 35719]
[ 8255 42067 53282 14383 14073 52083  7233  8199  8963 12617]
選出每項最佳預測結果
計算準確率...
0.9672

準確率好像還可以吼。

Python實現knn演算法手寫數字識別

KNN實現手寫數字識別 1 - 匯入模組 import numpy as np import matplotlib.pyplot as plt from PIL import Image %matplotlib inline 2 - 匯入資

機器學習使用python+OpenCV實現knn演算法手寫數字識別

基本上照搬了http://lib.csdn.net/article/opencv/30167的程式碼，只是改了一點bug和增加了一點功能輸入就是直接在一個512*512大小的白色畫布上畫黑線，然後轉化為01矩陣，用knn演算法找訓練資料中最相近的k個，現在應該是可以對所有字元

Python實現KNN演算法手寫識別數字

本文實現用KNN演算法實現手寫識別數字功能。語言：Python 訓練材料：手寫數字素材32*32畫素 from numpy import * import os from os import listdir import operator #將檔案32*

機器學習實戰——KNN演算法手寫數字識別

資料來源我們的文字是形如這樣的，每個數字都有很多txt檔案，TXT裡面是01數字，表示手寫數字的灰度圖。現在我們要用knn演算法實現數字識別。資料處理每個txt檔案都是32*32的0,1矩陣，如果要使用knn，那麼還得考慮行列關係，如果能把它拉開，只有一行，就可以不必考慮數字

【好玩的計算機視覺】KNN演算法手寫數字識別

OCR應用非常廣泛，而且有許多方法，今天用KNN演算法實現簡單的0-9手寫數字識別。本程式使用OpenCV 3.0和Python 3。 KNN演算法是K近鄰分類演算法，屬於機器學習中的監督學習，需要一定量的帶標籤的輸入樣本資料進行“訓練”，然後就可以識別。我給“訓練”打引

基於KNN分類演算法手寫數字識別的實現（二）——構建KD樹

上一篇已經簡單粗暴的建立了一個KNN模型對手寫圖片進行了識別，所以本篇文章採用構造KD樹的方法實現手寫數字的識別。（一）構造KD樹構造KD樹的基本原理網上都有介紹，所以廢話不多說，直接上程式碼。 #Knn KD_Tree演算法 import math from

利用scikit-learn下的knn實現kaggle的手寫數字識別問題

# -*- coding:utf-8 -*- ''' Created on 2017年3月28日 @author: okcing 手寫數字識別 ''' import csv from sklearn import neighbors #匯入訓練資料和測

學習KNN（二）KNN演算法手寫數字識別的OpenCV實現

在OpenCV的安裝檔案路徑/opencv/sources/samples/data/digits.png下，有這樣一張圖：圖片大小為1000*2000,有0-9的10個數字，每5行為一個數字，總共50行，共有5000個手寫數字，每個數字塊大小為20

用 KNN 做手寫數字識別

用 KNN 做手寫數字識別目錄用 KNN 做手寫數字識別 1. KNN的原理 2. KNN實現手寫數字識別過程作為一個小白，寫此文章主要是為了自己記錄，方便回過頭來查詢！本文主要參考ApacheCN（專注於優秀專案維護的開源組織）中MachineL

KNN / SVM 手寫數字識別-PCA降維

一.問題分析採用機器學習演算法對usps和mnist兩個資料集完成手寫數字識別任務。1.1.資料集介紹MNIST MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST)。訓練

Python實現KNN演算法例項之手寫體識別

from PIL import Image from numpy import * import operator def out_p(filename): im=Image.open("E:/test/pic/"+filename+".bmp") f=open("E:/test/t

kNN之手寫數字識別

answer style dataset 解析所表讀取 tile span k-近鄰 import numpy as np # listdir()列出給定目錄的文件名 from os import listdir import operator #

【機器學習演算法實現】kNN演算法手寫識別——基於Python和NumPy函式庫

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

[分享] Python實現的基於深度學習的手寫數字識別演算法

本文將採用深度學習中的卷積神經網路來訓練手寫數字識別模型。使用卷積神經網路建立合理的模型結構，利用卷積層中設定一定數目的卷積核（即濾波器），通過訓練資料使模型學習到能夠反映出十個不同手寫提數字特徵的卷積核權值，最後通過全連線層使用softmax函式給出預測數字圖對應每種數字可能性的概率多少。本文以學習基於

機器學習--k-近鄰演算法（kNN）實現手寫數字識別

這裡的手寫數字以0,1的形式儲存在文字檔案中，大小是32x32.目錄trainingDigits有1934個樣本。0-9每個數字大約有200個樣本，命名規則如下：下劃線前的數字代表是樣本0-9的

各種機器學習方法（線性迴歸、支援向量機、決策樹、樸素貝葉斯、KNN演算法、邏輯迴歸）實現手寫數字識別並用準確率、召回率、F1進行評估

本文轉自：http://blog.csdn.net/net_wolf_007/article/details/51794254 前面兩章對資料進行了簡單的特徵提取及線性迴歸分析。識別率已經達到了85%，完成了數字識別的第一步：資料探測。這一章要做的就各

【人工智慧】利用C語言實現KNN演算法進行手寫數字識別

KNN演算法稱為鄰近演算法，或者說K最近鄰(kNN，k-NearestNeighbor)分類演算法。所謂K最近鄰，就是k個最近的鄰居的意思，說的是每個樣本都可以用它最接近的k個鄰居來代表。kNN演算法的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類

KNN演算法——實現手寫數字識別（Sklearn實現）

KNN專案實戰——手寫數字識別 1、資料集介紹需要識別的數字已經使用圖形處理軟體，處理成具有相同的色彩和大小：寬高是32畫素x32畫素的黑白影象。儘管採用本文格式儲存影象不能有效地利用記憶體空間，但是為了方便理解，我們將圖片轉換為文字格式。數字的文字格式如下：

一看就懂的K近鄰演算法(KNN)，K-D樹，並實現手寫數字識別！

1. 什麼是KNN 1.1 KNN的通俗解釋何謂K近鄰演算法，即K-Nearest Neighbor algorithm，簡稱KNN演算法，單從名字來猜想，可以簡單粗暴的認為是：K個最近的鄰居，當K=1時，演算法便成了最近鄰演算法，即尋找最近的那個鄰居。用官方的話來說，所謂K近鄰演算法，即是給定一個訓練資

【深度學習】python實現簡單神經網路以及手寫數字識別案例

前言 \quad \qu

Python實現knn演算法手寫數字識別

1 - 匯入模組

2 - 匯入資料及資料預處理

3 - 構建模型

相關推薦