python實現機器學習分類演算法原始碼————上篇

阿新 • • 發佈：2018-12-30

python實現機器學習分類演算法原始碼

文章開始把我喜歡的這句話送個大家：這個世界上還有什麼比自己寫的程式碼執行在一億人的電腦上更酷的事情嗎，如果有那就是讓這個數字再擴大十倍

1.KNN分類演算法

KNN演算法不僅可以用於分類，還可以用於迴歸。通過找出一個樣本的k個最近鄰居，將這些鄰居的屬性的平均值賦給該樣本，就可以得到該樣本的屬性。

注意：KNN演算法不適用於樣本量不均衡的情況。

python實現程式碼：

/*normData函式來執行標準化資料集的工作,防止因不同量之間資料本身範圍不同而統一化分析的誤差保證標準化後每一個特徵值都在0~1之間*/

def normData(dataSet):
     maxVals = dataSet.max(axis=0)
     minVals = dataSet.min(axis=0)
     ranges = maxVals - minVals
     retData = (dataSet - minVals) / ranges
     return retData, ranges, minVals

//KNN演算法實現

 def kNN(dataSet, labels, testData, k):
      distSquareMat = (dataSet - testData) ** 2 # 計算差值的平方
      distSquareSums = distSquareMat.sum(axis=1) # 求每一行的差值平方和
      distances = distSquareSums ** 0.5 # 開根號，得出每個樣本到測試點的距離
      sortedIndices = distances.argsort() # 排序，得到排序後的下標
      indices = sortedIndices[:k] # 取最小的k個
      labelCount = {} # 儲存每個label的出現次數
      for i in indices:
          label = labels[i]
         labelCount[label] = labelCount.get(label, 0) + 1 # 次數加一
     sortedCount = sorted(labelCount.items(), key=opt.itemgetter(1), reverse=True) 
     # 對label出現的次數從大到小進行排序
     return sortedCount[0][0] # 返回出現次數最大的label

//測試函式

if __name__ == "__main__":
    dataSet = np.array([[2, 3], [6, 8]])
    normDataSet, ranges, minVals = normData(dataSet)
    labels = ['a', 'b']
    testData = np.array([3.9, 5.5])
    normTestData = (testData - minVals) / ranges
    result = kNN(normDataSet, labels, normTestData, 1)
    print(result)

//結果為a，正確

使用KNN演算法：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors,datasets,cross_validation

def test_KNeighborsRegressor(*data):
    X_train,X_test,y_train,y_test=data
    regr=neighbors.KNeighborsRegressor()
    regr.fit(X_train,y_train)
    print('Training Score:%f'%regr.score(X_train,y_train))
    print('Testing Score:%f'%regr.score(X_test,y_test))

X_train,X_test,y_train,y_test=create_regression_data(1000)
test_KNeighborsRegressor(X_train,X_test,y_train,y_test)

2.Logistic演算法

注意：邏輯迴歸演算法本質上還是一種線性模型，篩選出來的變數與結果有線性關係，但剔除的變數只是與結果大概率上無線性關係，但未必無非線性關係。

程式碼：

#-*- coding: utf-8 -*-
#邏輯迴歸 自動建模
import pandas as pd

#引數初始化
filename = '../data/bankloan.xls'
data = pd.read_excel(filename)
x = data.iloc[:,:8].as_matrix()
y = data.iloc[:,8].as_matrix()

from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR 
rlr = RLR() #建立隨機邏輯迴歸模型，篩選變數
rlr.fit(x, y) #訓練模型
rlr.get_support() #獲取特徵篩選結果，也可以通過.scores_方法獲取各個特徵的分數
print(u'通過隨機邏輯迴歸模型篩選特徵結束。')
print(u'有效特徵為：%s' % ','.join(data.columns[rlr.get_support()]))
x = data[data.columns[rlr.get_support()]].as_matrix() #篩選好特徵

lr = LR() #建立邏輯迴歸模型
lr.fit(x, y) #用篩選後的特徵資料來訓練模型
print(u'邏輯迴歸模型訓練結束。')
print(u'模型的平均正確率為：%s' % lr.score(x, y)) 


邏輯迴歸模型訓練結束。
模型的平均正確率為：0.805714285714

（未完待續）

下篇博文介紹：

3.Bayesian Linear Regression

不能夠一次性接收到整個資料集，而是不斷接收到小的資料集，同時由於儲存的限制不能儲存已經接收到的所有資料集,每次可以處理的小的資料集。這就導致不能對所有資料做線性迴歸，但是可以通過貝葉斯線性迴歸達到同樣的效果。貝葉斯迴歸演算法可以預防過擬合

https://www.cnblogs.com/hemiy/p/6194710.html

4.決策樹

5.人工神經網路

6.SVM

加油吧，程式設計師！

python實現機器學習分類演算法原始碼————上篇

python實現機器學習分類演算法原始碼文章

數學推導+純Python實現機器學習演算法：邏輯迴歸

自本系列第一講推出以來，得到了不少同學的反響和贊成，也有同學留言說最好能把數學推導部分寫的詳細點，筆者只能說盡力，因為打公式實在是太浪費時間了。。本節要和大家一起學習的是邏輯（logistic）迴歸模型，繼續按照手推公式+純 Python 的寫作套路。邏輯迴歸本質上跟邏輯這個詞不是很搭邊，叫這個名字完

python實現機器學習中的各種距離計算及文字相似度演算法

在自然語言處理以及機器學習的分類或者聚類中會涉及到很多距離的使用，各種距離的概念以及適用範圍請自行百度或者參考各種距離 import numpy as np import math # 依賴包numpy、python-Levenshtein、scipy

python機器學習--分類演算法

#感知器邏輯：一個二值分類問題，分別記為1(正類別)和-1（負類別）.定義激勵函式z=wx (w為權值，x為輸入值)，當Z大於閾值時為1類，否則為-1類 #用Python實現感知器學習演算法。步驟：1、將權重初始化為0或一個極小的隨機數 2、迭代所有訓練樣本，計算出輸出值Y,更新權重。 im

樸素貝葉斯算法的python實現 -- 機器學習實戰

cut ocl add set 分類器觀察 problem enc 兩個 1 import numpy as np 2 import re 3 4 #詞表到向量的轉換函數 5 def loadDataSet(): 6 postingLi

Python實現機器學習之迴歸分析

前言機器學習常用來解決相關分析和迴歸分析的問題，有時候大家會混淆兩者之間的差異，這裡通過對比分析來說明兩者的區別和聯絡，最後會以呼叫sklearn包中LinearRegression方法進行簡單線性迴歸分析為例，說明如何使用python進行資料分析。一、相關分析和迴

Python3實現機器學習經典演算法（四）C4.5決策樹

一、C4.5決策樹概述　　C4.5決策樹是ID3決策樹的改進演算法，它解決了ID3決策樹無法處理連續型資料的問題以及ID3決策樹在使用資訊增益劃分資料集的時候傾向於選擇屬性分支更多的屬性的問題。它的大部分流程和ID3決策樹是相同的或者相似的，可以參考我的上一篇部落格：https://www.cnblogs.

機器學習分類演算法之K近鄰（K-Nearest Neighbor）

一、概念 KNN主要用來解決分類問題，是監督分類演算法，它通過判斷最近K個點的類別來決定自身類別，所以K值對結果影響很大，雖然它實現比較簡單，但在目標資料集比例分配不平衡時，會造成結果的不準確。而且KNN對資源開銷較大。二、計算通過K近鄰進行計算，需要： 1、載入打標好的資料集，然

機器學習分類演算法常用評價指標

# -*- coding: utf-8 -*- import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn import metrics import matplotlib.pyplot as p

機器學習分類演算法---決策樹

決策樹：樹結構，可以是二叉樹或非二叉樹，資料結構中的概念，只不過加上了判斷條件。資訊熵： 1948年，夏農提出了“資訊熵”的概念。一條資訊的資訊量大小和它的不確定性有直接的關係，即對一件事，你不知道的越多，這件事對於你來說資訊熵越大，因為你需要學的東西更多。 &nb

Python實現機器學習二（實現多元線性迴歸）

接著上一次的一元線性迴歸http://blog.csdn.net/lulei1217/article/details/49385531往下講，這篇文章要講解的多元線性迴歸。 1、什麼是多元線性迴歸模型？當y值的影響因素不唯一時,採用多元線性迴歸模型。

機器學習分類演算法之樸素貝葉斯

一、概念樸素貝葉斯模型（Naive Bayesian Model，NBM）是以條件概率為基礎的分類器，是一種監督演算法，常被用於文字分類和垃圾郵件過濾。貝葉斯理論解決的是逆向概率問題，即通過已經發生的已知的概率來推測未發生的事將會發生的概率。二、計算樸素貝葉斯各個事件發

【轉】機器學習--- 分類演算法詳解

原文連結：http://blog.csdn.net/china1000/article/details/48597469 感覺狼廠有些把機器學習和資料探勘神話了，機器學習、資料探勘的能力其實是有邊界的。機器學習、資料探勘永遠是給大公司的業務錦上添花的

機器學習分類演算法(一)——餘弦相似度

概述:餘弦相似度是通過測量兩個向量點積空間夾角的餘弦值來判斷相似性。0°角的餘弦值是1，90°為0，餘弦值大小在[-1,1]區間。數學原理: 向量:空間中有兩個點原點O和點A，OA(O指向A)就是一個向量，向量是有長度有方向的。點積(內積):

機器學習-分類演算法之樸素貝葉斯

條件概率公式:P(A|B) = P(AB)/P(B) 貝葉斯定理:P(A|B) = P(B|A)P(A)/P(B) 樸素貝葉斯演算法思想:給定一個待分類的資料 X={a1,a2,……,aN},即N個特徵項，目標分類集合Y={y1,y2,……,yK}，即有K個分類通過計算P

機器學習入門之python實現圖片簡單分類

numbers org 路徑圖片分類 jpg animal 入門 res windows 小任務：實現圖片分類 1.圖片素材 python批量壓縮jpg圖片: PIL庫 resize http://blog.csdn.net/u012234115/article/

用Python從頭實現機器學習演算法

Machine Learning from scratch：僅使用Python和少量的第三方庫（Numpy/Pandas/PyTorch）函式實現基礎的機器學習演算法。實現的模型會與sklearn進行比較。專案地址：https://github.com/anhquan0412/ba

機器學習經典演算法詳解及Python實現--線性迴歸（Linear Regression）演算法

（一）認識迴歸迴歸是統計學中最有力的工具之一。機器學習監督學習演算法分為分類演算法和迴歸演算法兩種，其實就是根據類別標籤分佈型別為離散型、連續性而定義的。顧名思義，分類演算法用於離散型分佈預測，如前

機器學習經典演算法詳解及Python實現--決策樹（Decision Tree）

（一）認識決策樹 1，決策樹分類原理決策樹是通過一系列規則對資料進行分類的過程。它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和迴歸樹兩種，分類樹對離散變數做決策樹，迴歸樹對連續變數做決策樹。近來的調查表明決策樹也是最經常使用的資料探勘演算法，它

用Python開始機器學習（4：KNN分類演算法） sklearn做KNN演算法 python

http://blog.csdn.net/lsldd/article/details/41357931 1、KNN分類演算法 KNN分類演算法（K-Nearest-Neighbors Classification），又叫K近鄰演算法，是一個概念極其簡單，而分類效果又很優秀的

python實現機器學習分類演算法原始碼————上篇

python實現機器學習分類演算法原始碼

文章開始把我喜歡的這句話送個大家：這個世界上還有什麼比自己寫的程式碼執行在一億人的電腦上更酷的事情嗎，如果有那就是讓這個數字再擴大十倍

1.KNN分類演算法

2.Logistic演算法

（未完待續）

下篇博文介紹：

3.Bayesian Linear Regression

4.決策樹

5.人工神經網路

6.SVM

相關推薦