李航《統計學習方法》CH03

阿新 • • 發佈：2018-11-13

CH03 k近鄰法

前言

章節目錄

k近鄰演算法
k近鄰模型
1. 模型
2. 距離度量
3. k值選擇
4. 分類決策規則
k近鄰法的實現: KDTree
1. 構造KDTree
2. 搜尋KDTree

導讀

kNN是一種基本分類與迴歸方法.

0-1損失函式下的經驗風險最小化
kNN的k和KDTree的k含義不同,
KDTree是一種儲存k維空間資料的樹結構
建立空間索引的方法在點雲資料處理中也有廣泛的應用，KDTree和八叉樹在3D點雲資料組織中應用比較廣
KDTree是二叉樹
另外，書中的KDTree實現的時候針對了一種k=1的特殊的情況

k近鄰模型

距離度量

特徵空間中的兩個例項點的距離是兩個例項點相似程度的反映。

書中是如上描述的，這裡要注意距離越近(數值越小), 相似度越大。

這裡用到了$L_p$ $L_{p}$

p=1 對應曼哈頓距離
p=2 對應歐氏距離
任意p 對應閔可夫斯基距離

$$L_p(x_i, x_j)=\left(\sum_{l=1}^{n}{\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^p}\right)^{\frac{1}{p}}$$

考慮二維的情況, 上圖給出了不同的p值情況下與原點距離為1的點的圖形. 這個圖有幾點理解下:

與原點的距離
與原點距離為1的點
前一點換個表達方式, 圖中的點向量($x_1$, $x_2$)的p範數都為1
圖中包含多條曲線, 關於p=1並沒有對稱關係
定義中$p\geqslant1$，這一組曲線中剛好是凸的

這裡要補充一點：

範數是對向量或者矩陣的度量，是一個標量，這個裡面兩個點之間的$L_p$距離可以認為是兩個點座標差值的p範數。

參考下例題3.1的測試案例，這個實際上沒有用到模型的相關內容。

k值選擇

關於k大小對預測結果的影響, 書中給的參考文獻是ESL, 這本書還有個先導書叫ISL.

通過交叉驗證選取最優k
二分類問題, k選擇奇數有助於避免平票

分類決策規則

Majority Voting Rule

誤分類率

$\frac{1}{k}\sum_{x_i\in N_k(x)}{I(y_i\ne c_i)}=1-\frac{1}{k}\sum_{x_i\in N_k(x)}{I(y_i= c_i)}$

如果分類損失函式是0-1損失, 誤分類率最低即經驗風險最小.

關於經驗風險, 參考書上CH01第一章 (1.11)和(1.16)

實現

kNN在實現的時候，要考慮多維資料的儲存，這裡會用到樹結構。

在Scipy Cookbook裡面有個kd樹具體的實現^2可參考

構造KDTree

KDTree的構建是一個遞迴的過程

注意KDTree左邊的點比父節點小，右邊的點比父節點大。

這裡面有提到，平衡的KDTree搜尋時效率未必是最優的，為什麼

考慮個例子

[[1, 1],
 [2, 1],
 [3, 1],
 [4, 1],
 [5, 1],
 [6, 1],
 [100, 1]，
 [1000, 1]]

這個資料，如果找[100, 1]

搜尋KDTree

這部分書中的例子是最近鄰的搜尋例子。

例子

例3.1

分析p值對最近鄰點的影響，這個有一點要注意關於閔可夫斯基距離的理解：

兩點座標差的p範數

具體看相關測試案例的實現

例3.2

KDTree建立

例3.3

KDTree搜尋

graph TD
	subgraph 對應圖3.5
	A[A]---B((B))
	A---C((C))
	B(B)---F((F))
	B---D((D))
	C(C)---G((G))
	C---E((E))
	end

這個例子說明了搜尋的方法，理解一下書中的圖3.5，對應的KDTree如上。

李航—統計學習方法筆記（一）

什麼是獨立同分布？百度：在概率統計理論中，指隨機過程中，任何時刻的取值都為隨機變數，如果這些隨機變數服從同一分佈，並且互相獨立，那麼這些隨機變數是獨立同分布。如果隨機變數X1和X2獨立，是指X1的取值不影響X2的取值，X2的取值也不影響X1的取值且隨機變數X1和X2服從同一分佈，這意味著X1和X2具有

李航統計學習方法查缺補漏

矩陣的微積分 https://zhuanlan.zhihu.com/p/28956839 獨立同分布歐式空間標註問題聯合概率分佈貝葉斯統計 https://www.zhihu.com/question/21134457 似然函式和概率密度函式 https://www.zhihu.co

李航統計學習方法之樸素貝葉斯法（含python及tensorflow實現）

樸素貝葉斯法樸素貝葉斯法數學表示式後驗概率最大化的含義樸素貝葉斯是一個生成模型。有一個強假設：條件獨立性。我們先看下樸素貝葉斯法的思想，然後看下條件獨立性具體數學表示式是什麼樣的。

李航-統計學習方法-習題-第九章

9.2 證明引理 9.2. 引理 9.2 若P~θ(Z)=P(Z∣Y,θ)\widetilde P_\theta(Z)=P(Z|Y,\theta)Pθ(Z)=P(Z∣Y,θ)，則 F(P~,θ)=lo

演算法工程師修仙之路：李航統計學習方法（一）

第1章統計學習方法概論統計學習統計學習的特點統計學習（statistical learning）是關於計算機基於資料構建概率統計模型並運用模型對資料進行預測與分析的一門學科，統計學習也稱為統計機器學習（statistical machine learnin

李航·統計學習方法筆記·第6章 logistic regression與最大熵模型（1）·邏輯斯蒂迴歸模型

第6章 logistic regression與最大熵模型（1）·邏輯斯蒂迴歸模型標籤（空格分隔）：機器學習教程·李航統計學習方法邏輯斯蒂：logistic 李航書中稱之為：邏輯斯蒂迴歸模型周志華書中稱之為：對數機率迴歸模

李航統計學習方法習題5.1

定義5.3（資訊增益比）特徵A對訓練資料集D的資訊增益比定義為其資訊增益與訓練資料集D關於特徵A的值的熵之比，即

李航統計學習方法第五章決策樹課後習題答案

決策樹是一種基本的分類和迴歸方法。決策樹呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間和類空間上的條件概率分佈。學習時，利用訓練資料，根據損失函式最小化的原則建立決策樹模型。預測時，對

李航-統計學習方法筆記（一）：統計學習方法概論

對象統計學技術分享精確結束人的發生 abs 速度本系列筆記，主要是整理統計學習方法的知識點和代碼實現各個方法，來加強筆者對各個模型的理解，為今年找到好工作來打下基礎。計劃在一個月內更新完這本書的筆記，在此立一個flag: 從2019/2/17開始到 20

李航統計學習採用C4.5演算法構建決策樹

from numpy import * from math import log import operator def calcShannonEnt(dataset): numdataset=len(dataset) labelCount={}

李航《統計學習方法》CH03

CH03 k近鄰法前言章節目錄 k近鄰演算法 k近鄰模型模型距離度量 k值選擇分類決策規則 k近鄰法的實現: KDTree 構造KDTree 搜尋KDTree 導讀 kNN是一種基本分類與迴歸方法

《統計學習方法（李航）》講義第04章樸素貝葉斯

ima .cn 效率常用 1-1 估計實現技術 com 樸素貝葉斯(naive Bayes) 法是基於貝葉斯定理與特征條件獨立假設的分類方法。對於給定的訓練數據集，首先基於特征條件獨立假設學習輸入/輸出的聯合概率分布；然後基於此模型，對給定的輸入x，利用貝

《統計學習方法（李航）》講義第05章決策樹

lan 定義 if-then 利用建立 then 統計來源根據決策樹(decision tree) 是一種基本的分類與回歸方法。本章主要討論用於分類的決策樹。決策樹模型呈樹形結構，在分類問題中，表示基於特征對實例進行分類的過程。它可以認為是if-then

李航老師的《統計學習方法》第二章算法的matlab程序

com b+ -1 print nbsp 一個 while alpha 學習參考了http://blog.sina.com.cn/s/blog_bceeae150102v11v.html#post % 感知機學習算法的原始形式，算法2.1參考李航《統計學習方法》書中第

李航《統計學習方法》CH02

三元由於 nis mir 集合體會 .com 測試 git CH02 感知機前言章節目錄感知機模型感知機學習策略數據集的線性可分性感知機學習策略感知機學習算法感知機學習算法感知機學習算法的原始形式算法的收斂性感知機學習

統計學習方法李航讀書筆記

************************************************************ 李航教授《統計學習方法》統計學教材總結主要介紹監督學習方法 ***************************************************

《統計學習方法》(李航)讀書筆記(完結)超級火爆的總結

閱讀目錄知識點感知機 k近鄰法樸素貝葉斯決策樹 logistic迴歸和最大熵模型支援向量機提升方法 EM演算法隱馬爾可夫模型(HMM) 統計學習方法總結神經網路 K-Means

深度學習，周志華，機器學習，西瓜書，TensorFlow，Google，吳軍，數學之美，李航，統計學習方法，吳恩達，深度學習筆記，pdf下載

1. 機器學習入門經典，李航《統計學習方法》 2. 周志華的《機器學習》pdf 3.《數學之美》吳軍博士著pdf 4. Tensorflow 實戰Google深度學習框架.pdf 5.《TensorFlow實戰》黃文堅高清完整PDF 6. 復旦大

統計學習方法_李航_筆記

統計學習方法_李航因本人剛開始寫部落格，學識經驗有限，如有不正之處望讀者指正，不勝感激；也望藉此平臺留下學習筆記以溫故而知新。這一篇文章介紹的是李航的統計學習方法一書的第一遍學習筆記。統計學習方法概論統計學習方法概論統計學習的物件是資

統計學習方法（李航）筆記

感知機/k近鄰/貝葉斯/決策樹前言：有時候公式實在不好理解的時候可以看一道例題理解，或者執行程式debug除錯逐步看輸入輸出變化進行理解！第二章感知機感知機概念輸入到輸出空間的對映：f(x) =sign(w*x+b) sign函式如下：感知器是一種線性分類器模型，屬於

李航《統計學習方法》CH03

CH03 k近鄰法

前言

章節目錄

導讀

最近鄰演算法

k近鄰模型

距離度量

k值選擇

分類決策規則

實現

構造KDTree

搜尋KDTree

例子

例3.1

例3.2

例3.3

相關推薦