統計學習方法筆記（一）：K近鄰法的實現：kd樹

阿新 • • 發佈：2018-12-18

實現k近鄰演算法時，首要考慮的問題是如何對訓練資料進行快速的k近鄰搜尋。這點在特徵空間的維數大於訓練資料容量時尤為重要。

構造kd樹
kd 樹是一種對k為空間中的例項點進行儲存的一邊對其進行快速檢索的樹形資料結構。kd樹是二叉樹，表示對k維空間的一個劃分（partition）。構造kd樹相當於不斷地用垂直於座標軸的超平面將k維空間切分。構成一系列的k維超矩形區域。kd樹的每個結點對應於一個k維的超矩形區域。
構建kd樹的方法： 構造跟結點，使跟結點對應於k維空間中包含所有例項點的超矩形區域；通過下面的遞迴方法，不斷地對k為空間進行切分，生產子節點。在超矩形區域（結點）上選擇一個座標軸和在此座標軸上的一個切分點，確定一個超平面，這個超平面通過選定的切分點並垂直於選定的座標軸，將當前超矩形區域切分為左右兩個子區域（子結點）；這時，例項唄分到兩個子區域。這個過程直到子區域內沒有例項時終止（終止時的結點為葉結點）。在此過程中，將例項儲存在相應的結點上。
通常，依次選擇座標軸對空間劃分，選擇訓練例項點在選定的座標軸的中位數為切分點，這樣得到的kd樹是平衡的。注意

，平衡的kd樹搜尋時的效率未必是最優的。
演算法：（構造平衡kd樹）
輸入： k維空間資料集T={x₁，x₂，…，x_N}，其中x₁=(x_i⁽¹⁾,x_i⁽²⁾,…,x_i^(k))^T,i=1,2,…,N
輸出： kd樹
（1）開始：構造根節點，根節點對應於包含T的k維空間的超矩形區域。
選擇x⁽¹⁾為座標軸，以T中所有例項的x⁽¹⁾座標的中位數為一切分點，將根節點對應的超矩形區域切分為兩個子區域。切分由通過切分點並與座標軸x⁽¹⁾垂直的超平面實現。
由根節點生成深度為1 的左、右子節點：左子節點對應座標x⁽¹⁾小於切分點的子區域，右子節點對應於座標x⁽¹⁾大於切分點的子區域。
將落在切分超平面上的例項點儲存在根節點。
（2）重複：對深度為j

的結點，選擇x⁽¹⁾為切分的座標軸，l=j(mod k)+1,以該節點的區域中的所有例項的x⁽¹⁾座標的中位數為切分點，將該結點對應超矩形區域切分成兩個子區域。切分由通過切分點並與座標軸x⁽¹⁾垂直的超平面實現。
由根節點生成深度為j+1的左、右子節點：左子節點對應座標x⁽¹⁾小於切分點的子區域，右子節點對應於座標x⁽¹⁾大於切分點的子區域。
（3）直到兩個子區域沒有例項存在時停止。從而形成kd樹的區域劃分。
搜尋kd樹
下面介紹如何利用kd樹進行k近鄰搜尋。這裡以最近鄰為例加以敘述。
給定一個目標點，搜尋其最近鄰。首先找到包含目標點的葉節點；然後從該葉節點出發，一次回退到父節點；不斷查詢與目標點最近鄰的結點，當確定不可能存在更近的結點時終止。這樣搜尋酒杯限制在空間的區域性區域上，效率大為提高。
包含目標點的葉節點對應包含目標點的最小超矩形區域。一次葉節點的例項點作為當前的最近點。目標點的最近鄰一定是以目標點為中心並通過當前最近鄰點的超球體內部。然後返回當前結點的父節點，如果父節點的另一子節點的超矩形區域與超球體相交，那麼在相交的區域內尋找與目標點更近的例項點。如果存在這樣的點，將此點作為新的當前最近鄰點。演算法轉到更上一級的父節點，繼續上述過程，如果父節點的另一子節點的超矩形區域與超球體不想交，或不存在比當前更近點更近的點，則停止搜尋。
kd樹的最近鄰搜尋：

　　
輸入： 已構造的kd樹；目標點x；
輸出： x的最近鄰。

（1）在kd樹中找出包含目標點x的葉結點：從根結點出發，遞迴的向下訪問kd樹。若目標點當前維的座標值小於切分點的座標值，則移動到左子結點，否則移動到右子結點。直到子結點為葉結點為止；
（2）以此葉結點為“當前最近點”；
（3）遞迴的向上回退，在每個結點進行以下操作：
　　（a）如果該結點儲存的例項點比當前最近點距目標點更近，則以該例項點為“當前最近點”；
　　（b）當前最近點一定存在於該結點一個子結點對應的區域。檢查該子結點的父結點的另一個子結點對應的區域是否有更近的點。具體的，檢查另一個子結點對應的區域是否與以目標點為球心、以目標點與“當前最近點”間的距離為半徑的超球體相交。
　　如果相交，可能在另一個子結點對應的區域記憶體在距離目標更近的點，移動到另一個子結點。接著，遞迴的進行最近鄰搜尋。如果不相交，向上回退。
（4）當回退到根結點時，搜尋結束。最後的“當前最近點”即為x的最近鄰點。

統計學習方法筆記（一）：K近鄰法的實現：kd樹

實現k近鄰演算法時，首要考慮的問題是如何對訓練資料進行快速的k近鄰搜尋。這點在特徵空間的維數大於訓練資料容量時尤為重要。構造kd樹 kd 樹是一種對k為空間中的例項點進行儲存的一邊對其進行快速檢索的樹形資料結構。kd樹是二叉樹，表示對k維空間的一個劃分（parti

李航-統計學習方法筆記（一）：統計學習方法概論

對象統計學技術分享精確結束人的發生 abs 速度本系列筆記，主要是整理統計學習方法的知識點和代碼實現各個方法，來加強筆者對各個模型的理解，為今年找到好工作來打下基礎。計劃在一個月內更新完這本書的筆記，在此立一個flag: 從2019/2/17開始到 20

李航—統計學習方法筆記（一）

什麼是獨立同分布？百度：在概率統計理論中，指隨機過程中，任何時刻的取值都為隨機變數，如果這些隨機變數服從同一分佈，並且互相獨立，那麼這些隨機變數是獨立同分布。如果隨機變數X1和X2獨立，是指X1的取值不影響X2的取值，X2的取值也不影響X1的取值且隨機變數X1和X2服從同一分佈，這意味著X1和X2具有

統計學習方法筆記（一）統計學習方法簡介

統計學習概論：一、統計學習執行統計學習相關方法的前提：假設同類資料具有一定的統計規律性定義：計算機基於資料構建相應的概率統計模型，利用模型對資料進行預測與分析方法分類：監督學習、非監督

統計學習方法筆記（三）K近鄰演算法

K近鄰法（KNN）是一種基本的分類和迴歸的方法，KNN的基本思想是給出一定數量帶有標籤的訓練樣本，使用這些訓練樣本將特徵空間劃分成許多的子空間，當一個新的測試樣本進來以後，這個測試樣本一定會落在一個超矩形區域內部，然後找到距離這個測試樣本最近的K個訓練樣本，用這些訓練樣本的

統計學習方法筆記（三）統計學習方法簡介

正則化與交叉驗證前文所述的模型選擇只能大體選擇出一類較好的模型，即利用訓練資料集學習模型，沒有考慮到測試誤差，而正則化與交叉驗證的提出，則加入了測試誤差的考量，因此，這兩種方法用來選擇具體模型。正則化正則化是結構風險最小化策略的實現，其是在經驗風

機器學習之路——《統計學習方法》（一）

最近開始閱讀李航老師的經典著作《統計學習方法》，現將其中自認為較為重要的點寫出來，一個是作為回憶複習，二一個是希望能夠分享給更多人。第一次寫部落格，如有錯誤，希望多包涵。第一章統計學習方法概論個人認為第一章主要介紹的是機器學習中一些最為基本的概念和重要的

機器學習速成筆記（一）：主要術語

機器學習研究如何通過計算的方式，利用資料集來改善系統自身的效能。而深度學習是屬於機器學習的一個子分支。機器學習的通用的兩種型別：無監督學習：事先並沒有任務訓練資料的樣本，需要直接對資料進行建模型。監督學習：通過已經有的訓練樣本（即輸入資訊和對應的輸出）來訓練，得到一個

學習Coq筆記（一）：Windows下安裝Coq

正在學習形式語義這門課，需要使用到Coq作為輔助語言進行描述。因此，需要在熟悉Coq語言。然而，直接百度Coq會出現很多奇奇怪怪的結果（Google更準確，但是我在載入自定義庫遇到的問題沒有直接找到答案），因此特別在這裡做個筆記，以備後來查驗。 Coq的核心下載地址：h

《Python 機器學習》筆記（一）

環境成功設定相關 reward 能力學習一定的 env 賦予計算機學習數據的能力涵蓋：1.機器學習的一般概念2.機器學習方法的三種類型和基本術語3.成功構建機器學習系統所需的模塊機器學習的三種不同方法1.監督學習2.無監督學習3.強化學習通過監督學習對未來事件進行

PHP、MySQL和JavaScript學習手冊筆記（一）

本地後端驗證 css 考題 php 語言 html oot 第一章思考題1.創建一個完全動態網頁至少需要哪四大要素？服務器動態語言php js 數據庫2.html代表超文本xxx3.因為sql分支用sql語言4.php用在服務器端處理後端任務 js用在客戶端本地驗

Elam的吳恩達深度學習課程筆記（一）

記憶力是真的差，看過的東西要是一直不用的話就會馬上忘記,於是乎有了寫部落格把學過的東西儲存下來，大概就是所謂的集鞏固，分享，後期查閱與一身的思想吧，下面開始正題深度學習概論什麼是神經網路什麼是神經網路呢，我們就以房價預測為例子來描述一個最簡單的神經網路模型。　　假設有6間

機器學習實戰筆記（一）- 使用SciKit-Learn做回歸分析

err 皮爾遜練習 using flow 相關一個數 ocean 針對一、簡介這次學習的書籍主要是Hands-on Machine Learning with Scikit-Learn and TensorFlow（豆瓣：https://book.douban.co

springboot學習小筆記（一）---新建springboot專案

springboot學習中會遇到一些細節上的問題，總結一下 idea新建springboot專案當你新建springboot專案是，有一步驟你費解過沒？在使用Spring Initializr 建立專案時，這些需要怎麼填，Group（陣列）應該怎麼填，Artifact（標識）應

學習Linux筆記（一）

在學習Linux之前，之前已經裝了ubuntu作業系統。 1.Linux系統版本介紹在學習Linux之前，之前已經裝了ubuntu作業系統。Ubuntu烏班圖是一個版本，但是跟大資料相關的資料基本上是CentOS版本。所以進行CentOS版本的安裝。 2.VM

Coursera吳恩達機器學習教程筆記（一）

人工智慧行業如火如荼，想要入門人工智慧，吳恩達老師的機器學習課程絕對是不二之選（當然，這不是我說的，是廣大網友共同認為的）教程的地址連結：有的同學可能進不去這個網站，解決辦法參照如下連結：這個辦法本人親測有效，因為我看的時候也打不開（囧！！）

Java Web學習筆記（一）FreeMarker自定義標籤實現生成前端指令碼驗證

最近在學習Java Web因為.net已經寫的想吐了。通過網易雲課堂瞭解了當前常用的SSM框架的使用方法，前期一切都很順利，包括資料庫的訪問、事務提交、物件注入、面向切片等等，但是當我對頁面檢視進行實現時發現相對於.net有一點不方便。Java Web的檢視層的實現方式非常

David Silver強化學習課程筆記（一）

大家好，我是微念。國慶這些天大致學習了一下David Silver的強化學習課程，感覺挺受用的，大家可以去百度雲盤（無字幕版本）下載視訊，或者去B站搜尋觀看（有字幕版本），課程課件下載地址為David Silver課程課件。

斯坦福深度學習課程筆記（一）

影象分類 ppt 1 資料驅動方法人眼和計算機看到的圖片不同，計算機看到的圖片是由很多代表畫素點的數字表示的陣列，所以人眼和計算機的視覺識別存在著Semantic Gap(語義鴻溝)。同時，讓計算機能夠有效地識別圖片中的物體之前，還存在很多挑戰：比如一些

深度增強學習入門筆記（一）

知乎專欄智慧單元的學習筆記，僅為自己學習所用，侵刪。從OpenAI看深度學習研究前沿 OpenAI的三個主要研究方向 1. 深度生成模型 Deep Generative Model 通過學習現有的資料生成新的資料。相關研究

統計學習方法筆記（一）：K近鄰法的實現：kd樹

相關推薦