【機器學習實戰-kNN：約會網站約友分類】python3實現-書本知識【2】

阿新 • • 發佈：2019-02-12

# coding=utf-8
# kNN-約會網站約友分類
from numpy import *
import matplotlib.pyplot as plt
import matplotlib.font_manager as font
import operator


# 【1】獲取資料
def init_data():
    # 開啟訓練集檔案
    f = open(r"F:\Python\data\kNN\datingTestSet2.txt", "r")
    rows = f.readlines()
    lines_number = len(rows)
    return_mat = zeros((lines_number, 3))  # lines_number行 3列
    class_label_vec = []
    index = 0
    for row in [value.split("\t") for value in rows]:
        return_mat[index, :] = row[0:3]  # 取row前三列
        class_label_vec.append(int(row[-1]))  # row[-1]取列表最後一列資料
        index += 1
    # 關閉開啟的檔案
    f.close()
    return return_mat, class_label_vec


# 【2】特徵縮放 X:=[X-mean(X)]/std(X) || X:=[X-min(X)]/max(X)-min(X) ;
def feature_scaling(data_set):
    # 特徵縮放參數
    max_value = data_set.max(0)
    min_value = data_set.min(0)
    # avg_value = (min_value + max_value)/2
    diff_value = max_value - min_value
    norm_data_set = zeros(shape(data_set))  # 初始化與data_set結構一樣的零array
    # print(norm_data_set)
    m = data_set.shape[0]
    norm_data_set = data_set - tile(min_value, (m, 1))  # avg_value
    norm_data_set = norm_data_set/tile(diff_value, (m, 1))
    return norm_data_set, diff_value, min_value


# 【3】kNN實現 input_set:輸入集 data_set：訓練集
def classify0(input_set, data_set, labels, k):
    data_set_size = data_set.shape[0]
    # 計算距離tile 重複以input_set生成跟data_set一樣行數的mat
    diff_mat = tile(input_set, (data_set_size, 1)) - data_set
    sq_diff_mat = diff_mat ** 2
    sq_distances = sq_diff_mat.sum(axis=1)
    distances = sq_distances ** 0.5
    # 按照距離遞增排序
    sorted_dist_indicies = distances.argsort()  # argsort返回從小到大排序的索引值
    class_count = {}  # 初始化一個空字典
    # 選取距離最小的k個點
    for i in range(k):
        vote_ilabel = labels[sorted_dist_indicies[i]]
        # 確認前k個點所在類別的出現概率,統計幾個類別出現次數
        class_count[vote_ilabel] = class_count.get(vote_ilabel, 0) + 1
    # 返回前k個點出現頻率最高的類別作為預測分類
    sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)
    return sorted_class_count[0][0]


# 【4】測試kNN
def dating_class_test():
    # 測試樣本比例
    ho_ratio = 0.1
    dating_data_mat, dating_labels = init_data()
    norm_mat, diff_dt, min_value = feature_scaling(dating_data_mat)
    m = norm_mat.shape[0]
    num_test_vecs = int(m * ho_ratio)  # 測試樣本的數量
    error_count = 0.0
    for i in range(num_test_vecs):
        # 測試樣本和訓練樣本
        classifier_result = classify0(norm_mat[i, :], norm_mat[num_test_vecs:m, :],
                                      dating_labels[num_test_vecs:m], 4)
        print("the classifier came back with:%d , the real answer is:%d" % (classifier_result, dating_labels[i]))
        if classifier_result != dating_labels[i]:
            error_count += 1.0
    right_ratio = 1-error_count/float(num_test_vecs)
    print("the total right rate is :%f %%" % (right_ratio*100))


# 【5】樣本資料繪圖
def make_plot():
    # 獲取資料
    x, y = init_data()
    # 特徵縮放
    norm_mat, diff_dt, min_value = feature_scaling(x)

    fig = plt.figure()
    ax = fig.add_subplot(111)  # 畫布分割一行一列資料在第一塊
    # 設定字型
    simsun = font.FontProperties(fname='C:\Windows\Fonts\simsun.ttc')
    # ax.scatter(x[:, 1], x[:, 2], 15.0*array(y), 15.0*array(y))  # 取2 3列繪圖
    # plt.xlabel("玩視訊耗時百分比", fontproperties=simsun)
    # plt.ylabel("周消耗冰激凌公升數", fontproperties=simsun)

    ax.scatter(norm_mat[:, 0], norm_mat[:, 1], 15.0*array(y), 15.0*array(y))  # 取1 2列繪圖
    plt.xlabel("飛行常客里程數", fontproperties=simsun)
    plt.ylabel("玩視訊耗時百分比", fontproperties=simsun)
    plt.show()


# 預測函式
def classify_main():
    result_list = ['not at all', 'in small doses', 'in large doses']
    # 輸入
    ff_miles = float(input("frequent flier miles earned per year?"))
    percent_tats = float(input("percentage of time spent playing video games?"))
    ice_cream = float(input("liters of ice cream consumed per year?"))
    # 獲取資料
    dating_data_mat, dating_labels = init_data()
    # 特徵縮放
    norm_mat, diff_dt, min_value = feature_scaling(dating_data_mat)
    in_arr = array([ff_miles, percent_tats, ice_cream])
    # 計算距離
    classifier_result = classify0((in_arr-min_value)/diff_dt, norm_mat, dating_labels, 3)
    print("You will probably like this person:", result_list[classifier_result-1])

# 主方法
if __name__ == "__main__":

    # 繪圖
    make_plot()
    # 測試kNN指令碼
    # dating_class_test()
    # 預測函式
    classify_main()

【機器學習實戰-kNN：約會網站約友分類】python3實現-書本知識【2】

# coding=utf-8 # kNN-約會網站約友分類 from numpy import * import matplotlib.pyplot as plt import matplotlib.font_manager as font import operator # 【1】獲取資料 def in

【機器學習實戰-kNN(k-近鄰)】python3實現-書本知識【1】

說明：本文內容為【Peter Harrington -機器學習實戰】一書的學習總結筆記。基本概念： kNN是聚類演算法中一種使用歐式定理計算各個特徵之間的距離而進行分類的基礎演算法，歐式定理：

機器學習實戰——KNN演算法改進約會網站配對效果

背景：將約會網站的人分為三種類型：不喜歡的，魅力一般的，極具魅力的，分別用數字1,2,3表示，這些是樣本的標籤。樣本特徵為，每年飛行里程，玩視訊遊戲佔百分比，每週消費冰淇淋公升數。 &

【機器學習實戰之一】：C++實現K-近鄰演算法KNN

本文不對KNN演算法做過多的理論上的解釋，主要是針對問題，進行演算法的設計和程式碼的註解。 KNN演算法：優點：精度高、對異常值不敏感、無資料輸入假定。缺點：計算複雜度高、空間複雜度高。適用資料範圍：數值型和標稱性。工作原理：存在一個樣本資料集合，也稱作訓練樣本集，

機器學習實戰KNN語法：dict.get() sorted() & itemgetter() tile() strip()&split() readlines&readline

1.dict.get() from numpy import * labels=['a','b','d','n','s'] dict={} a=labels[3]; b=labels[4]; dict[a]=dict.get(a,0)+1 dict[b]=dict.get(a,2)+1 prin

【機器學習實戰】knn演算法手寫

首先初始化資料 def createDataSet(): group = np.array([[1.0, 1.1], [1.0, 1.0], [0.0,0.0], [0.0,0.1]]) labels = ['A', 'A', 'B', 'B']

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

1、報錯：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence 原因：這是檔案編碼的問題，檔案中有非法的多位元組字元。解決辦法：開啟Ch04\

【機器學習實戰】第2章 K-近鄰演算法(k-NearestNeighbor，KNN)

第2章 k-近鄰演算法 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

【機器學習實戰】—KNN分類演算法

一、KNN演算法概述 kNN分類演算法本身簡單有效，既可以分類又可以進行迴歸。核心原理：已知樣本資料集的每一個數據的特徵和所屬的分類，將新資料的特徵與樣本資料進行比較，找到最相似（最近鄰）的K（k

【機器學習實戰】製作五子棋AI之四：基本規則的建立【2】

在上一次，我們建立了棋盤的狀態類GameStatus，用來存取和顯示每一步走完後的棋盤上黑白子的狀態。想一想，為了像真實的五子棋遊戲一樣執行，還缺了遊戲勝負的判定，那麼我們定義一個函式對遊戲勝負進行判斷。 def check_win(black,white

【機器學習實戰系列】讀書筆記之KNN演算法（三）

本次讀書筆記在於延續上一篇部落格的工程，做出微小的改動，即使用Matplotlib建立散點圖（散點圖使用DataMat矩陣的第一、第二列資料）。首先還是介紹一個相關知識點，方便程式碼瀏覽。知識點一：1、在使用Matplotlib生成圖表時，預設不支援漢字，所有漢字都會顯示成框

【機器學習實戰】第13章利用 PCA 來簡化數據

light nan 文本 com axis 均值 ... cati 二維空間第13章利用 PCA 來簡化數據降維技術場景我們正通過電視觀看體育比賽，在電視的顯示器上有一個球。顯示器大概包含了100萬像素點，而球則可能是由較少的像素點組成，例如說一千個像素

【機器學習實戰】樸素貝葉斯

一.概述二.理論基礎三.文件分類四.垃圾郵件過濾五.從個人廣告中獲取區域傾向六.程式碼問題總結七.總結一、概述貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本章首先介紹貝葉斯分類演算法的基礎——

機器學習實戰——KNN學習筆記

K近鄰演算法概述： K最近鄰(k-Nearest Neighbor，以下簡稱KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。

《機器學習實戰》：決策樹之為自己配個隱形眼鏡

《機器學習實戰》：決策樹之為自己配個隱形眼鏡檔案列表如下圖所示：一、構建決策樹建立trees.py檔案，輸入以下程式碼。 ''' Created on Oct 12, 2010 Decision Tree Source Code for Machine Learnin

【機器學習實戰】FP-growth演算法詳解

Here is code 背景 apriori演算法需要多次掃描資料，I/O 大大降低了時間效率 1. fp-tree資料結構 1> 項頭表記錄所有的1項頻繁集出現的次數，並降序排列 2> fp tree 根據項頭表，構建fp樹 3>

機器學習實戰系列：sklearn 中模型儲存的兩種方法

一、 sklearn中提供了高效的模型持久化模組joblib，將模型儲存至硬碟。 from sklearn.externals import joblib #lr是一個LogisticRegression模型 joblib.dump(lr, 'lr.model') lr =

機器學習實戰----kNN近鄰演算法問題記錄

1.import kNN。報錯：only 2 non-keyword arguments accepted 原因：group =array([1.0,1.1],[1.0,1.0],[0,0],[0,0.1]) 粗心少寫了兩個中括號正確寫法: group=array([

機器學習實戰--KNN

import numpy as np import operator def createDataSet(): group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B

機器學習實戰--KNN手寫數字識別

程式碼： import numpy as np import operator import matplotlib import matplotlib.pyplot as plt import os def classfy0KNN(intX,dataset,labels

【機器學習實戰-kNN：約會網站約友分類】python3實現-書本知識【2】

相關推薦