使用Orange進行資料探勘之分類(2)------KNN分類

阿新 • • 發佈：2019-01-09

knn基本概念

knn把每個樣例看做是空間上的一個點，給定一個測試樣例，

使用適當的鄰近性度量演算法，計算出該點與訓練集中其他點的鄰近度。選擇K個最相近的點。

在選擇出的K個樣例中，比例最好的類就是測試樣例的類。

從以上描述中可以看出，如果k選擇的太小，該演算法容易受到噪聲的影響，而產生過度擬合的影響，然而如果選擇的過大，可能造成誤分類。

演算法描述：

k是最近鄰數目，D是訓練樣例的集合，z是測試樣例
for 樣例 in 訓練樣例集合：
     z和每個樣例的相似度
找到k個最相近的樣例集合
k個樣例中類標號最多的類，就是測試樣例的類標號。

Orange中的knn

以iris資料為例：

import Orange
#載入資料
iris = Orange.data.Table('iris')

knn = Orange.classification.knn.kNNLearner(iris, k=10)

for i in iris:
     #將預測結果和實際結果不同的部分輸出
     if i.getclass()!=knn(i):
         print i.getclass(),knn(i)

輸出結果如下：

Iris-versicolor Iris-virginica
Iris-versicolor Iris-virginica
Iris-virginica Iris-versicolor
Iris-virginica Iris-versicolor
Iris-virginica Iris-versicolor

該資料集共有150個例項，從結果看有5個預測結果是錯誤的。

下面以圖形化的方式來比較樸素貝葉斯分類、KNN分類、s。

下圖展現了用orange圖形介面的方法：

下圖給出了這一比較結果:

從上面的結果中可以看出knn和其他幾個方法基本相當。

參考資料

資料探勘導論 http://book.douban.com/subject/5377669/

使用Orange進行資料探勘之分類(2)------KNN分類

knn基本概念 knn把每個樣例看做是空間上的一個點，給定一個測試樣例，使用適當的鄰近性度量演算法，計算出該點與訓練集中其他點的鄰近度。選擇K個最相近的點。在選擇出的K個樣例中，比例最好的類就是測試樣例的類。從以上描述中可以看出，如果k選擇的太小，該演算法容易受到噪聲

使用Orange進行資料探勘之分類(4)------SVM

SVM基本概念簡單的說SVM是一種對線性合非線性資料進行分類的方法。以二維資料為例，中間的直線將資料分為兩部分，分別用實心的圓點和空心的圓點表示。對於上邊的資料可能有很多直線將資料區分開，如下 SVM通過搜尋最大邊緣超平面來選擇最合適的超平面，因為具有較大邊緣的超

使用Orange進行資料探勘之聚類分析(2)------K-means

一、基本k均值演算法 1 根據使用者指定的引數K，首先選擇K個初始化質心； 2 然後每個點指派到最近的質心，指派到一個質心的點形成一個簇。 3 更新每個簇的質心 4重複步驟2、3，直到簇不在發生變化。虛擬碼描述如下：選擇K個點作為初始質心 repeat 將每個質

用WEKA進行資料探勘，第2部分：分類和群集

簡介在用 WEKA 進行資料探勘，第 1 部分：簡介和迴歸，我介紹了資料探勘的概念以及免費的開源軟體 Waikato Environment for Knowledge Analysis（WEKA），利用它可以挖掘資料來獲得趨勢和模式。我還談到了第一種資料探勘的方法 —

資料探勘之資料處理——SVM神經網路的資料分類預測-義大利葡萄酒種類識別

************* 使用的工具：Matlab 分類器：SVM ************* 1、案例背景：在葡萄酒製造業中,對於葡萄酒的分類具有很大意義,因為這涉及到不同種類的葡萄酒的存放以及出售價格,採用SVM做為分類器可以有效預測相關葡萄酒的種類,從UCI資料

資料探勘之分類演算法---knn演算法(Matlab程式碼)

knn演算法(k-Nearest Neighbor algorithm).是一種經典的分類演算法. 注意,不是聚類演算法.所以這種分類演算法必然包括了訓練過程. 然而和一般性的分類演算法不同,knn演算法是一種懶惰演算法 .它並非像其他的分類演算法先通過訓練建立分類模型.,而是一種被動的分類

資料探勘之售房資料分析1

最近再做一批關於售房的資料，感覺自己陷入一個死衚衕裡：該批資料是儲存再postgresql裡面，是從某售房網站上爬下來的，以資料庫中的一列欄位作為儲存資料，該列欄位是以json的資料形式儲存的，這裡跟我打開了一個新大門，資料庫能儲存json資料格式的資料，而且postgresql還有一套專門的

資料探勘——基於sklearn包的分類演算法小結

　　目錄一、分類演算法簡介二、KNN演算法三、貝葉斯分類演算法四、決策樹演算法五、隨機森林演算法六、SVM演算法一、分類演算法簡介 1、概念　　1.1 監督學習（Super

資料探勘之十大經典演算法

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了資料探勘領域的十大經典演算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, k

資料探勘之FP_Tree演算法實現

轉自http://www.cnblogs.com/zhangchaoyang/articles/2198946.html （格式複製之後有變化，建議直接點連結去部落格園看原文） python程式碼見https://github.com/yantijin/Lean_DataMining F

資料探勘之AdaBoost裝袋提升演算法

python3程式碼實現在https://github.com/yantijin/Lean_DataMining上，時間匆忙，敬請之處錯誤之處，謝謝！以下內容轉自：https://blog.csdn.net/androidlushangderen/article/details/4363511

資料探勘之關聯規則Apriori演算法

一、Aoriori原始演算法：頻繁挖掘模式與關聯規則關聯規則兩個基本的指標(假設有事務A和事務B) 　　1、支援度(suport)：計算公式如下　　　　　　2、置信度(confidence)：　　關聯規則的挖掘過程：　　1、設定最小支援度閾值，找出所有的頻繁項集且每個出現的次數要

用 WEKA 進行資料探勘（1）簡介和迴歸

簡介什麼是資料探勘？您會不時地問自己這個問題，因為這個主題越來越得到技術界的關注。您可能聽說過像 Google 和 Yahoo! 這樣的公司都在生成有關其所有使用者的數十億的資料點，您不禁疑惑，“它們要所有這些資訊幹什麼？”您可能還會驚奇地發現 Walmart 是最為先進的進行資料探勘並將結果

零基礎入門大資料探勘之spark中的幾種map

今天再來說一下spark裡面的幾種map方法。前面的文章介紹過單純的map，但是spark還有幾種map值得對比一下，主要是下面幾種： map：普通的map flatMap：在普通map的基礎上多了一個操作，扁平化操作； mapPartitions：相對於分割槽P

零基礎入門大資料探勘之spark的rdd

本節簡單介紹一下spark下的基本資料結構RDD，方便理解後續的更多操作。那麼第一個問題，什麼是rdd。我們知道，大資料一般儲存在分散式叢集裡面，那麼你在對其進行處理的時候總得把它讀出來吧，讀出來後總得把它存成某種格式的檔案吧，就好比程式語言裡面的，這個資料是陣列，那麼你可以以陣列

零基礎入門大資料探勘之reduce方法

上節介紹過大資料裡面（以spark為例）最為基礎典型的操作：map方法，map方法直白的理解就是一個分散式接受處理函式的方法，形式如map(fun)，map方法本身不做處理，沒有map方法，裡面的函式fun就是一個單機的處理函式，有了map，相當於就把這個函式複製到多臺機器上，每臺機器同

資料倉庫與資料探勘之Apriori演算法例項

最近剛上了資料探勘這門課，老師講了兩個演算法，即Apriori演算法和FP-growth演算法，然後佈置了上機作業，挖掘一個有8萬行的記錄的retail.dat，需要從中找出強規則，即同時滿足最小支援度和最小置信度的規則。 Apriori演算法在這裡給出一個實現找出所有頻繁模式集的

資料探勘之Apriori演算法

python3程式碼如下： #coding = utf-8 import numpy #from python_util import fileread """ 程式所需部分：建立初始的候選集根據Lk產生Lk+1

資料探勘-R語言(2)

https://rseek.org/ 在這個網站，我們可以搜尋一些關鍵詞，來獲取包或函式的資訊。首先，我們可以安裝書本對應的R包， install.packages(‘DMwR’) library(DMwR) 學習畫圖一些簡單的圖。 hist() 匯入資料： data(“algae”) h

關聯規則進行資料探勘 Apriori 演算法

1. 關聯分析(Association analysis) 理解: 從大規模的資料中, 發現事物(物品)間的隱含關係的過程就是關聯分析(association analysis)或者關聯規則學習(association rule learning). 是

使用Orange進行資料探勘之分類(2)------KNN分類

knn基本概念

Orange中的knn

參考資料

相關推薦