核密度估計（kernel density estimation）

阿新 • • 發佈：2018-12-11

有一些資料，想“看看”它長什麼樣，我們一般會畫直方圖（Histogram）。現在你也可以用核密度估計。

#什麼是“核”

如果不瞭解背景，看到“核密度估計”這個概念基本上就是一臉懵逼。我們先說說這個核 (kernel) 是什麼。

首先，“核”在不同的語境下的含義是不同的，例如在模式識別裡，它的含義就和這裡不同。在“非引數估計”的語境下，“核”是一個函式，用來提供權重。例如高斯函式 (Gaussian) 就是一個常用的核函式。

讓我們舉個例子，假設我們現在想買房，錢不夠要找親戚朋友借，我們用一個數組來表示 5 個親戚的財產狀況： [8, 2, 5, 6, 4]。我們是中間這個數 5。“核”可以類比成朋友圈，但不同的親戚朋友親疏有別，在借錢的時候，關係好的朋友出力多，關係不好的朋友出力少，於是我們可以用權重來表示。總共能借到的錢是： 8*0.1 + 2*0.4 + 5 + 6*0.3 + 4*0.2 = 9.2

。

那麼“核”的作用就是用來決定權重，例如高斯函式（即正態分佈）：

Kernel Exponential

如果還套用上面的例子的話，可以認為在 3 代血親之外的親戚就基本不會借錢給你了。

最後呢，一般要求核函式有下面兩個性質：

歸一化：$\int_{- \infty}^{+ \infty}{K(u) du} = 1$
對稱性：對所有 $u$ 要求 $K(-u) = K(u)$

#核密度估計

理解了“核”，核密度估計就容易理解了。

如果我們畫直方圖，其實目的是畫出“概率密度函式”，而直方圖本質上是認為頻率等於概率。但這種假設不是必然的。核密度函式就是一種“平滑(smooth)”的手段。相當於是“我說我很牛逼你可能不信，但你可以聽聽我的朋友們是怎麼評價我的，加權平均下就能更好地瞭解我了”。於是乎：

設 $(x_1, x_2, …, x_n)$ 是獨立同分布的 n 個樣本點，它的概率密度函式是 $f$，於是我們的估計：

$$\hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^{n}{K_h(x - x_i)} = \frac{1}{nh}\sum_{i=1}^{n}{K(\frac{x-x_i}{h})}$$

上面式子中 h 是人為指定的，代表“朋友圈”的大小，正式的叫法是“頻寬”(bandwidth) 。而 $x-x_i$ 就是自己與朋友的親疏程度，當然最後要正歸化到 [-1, 1] 之間。下圖是直方圖和核密度估計的一個對比：

Comparison_of_1D_histogram_and_KDE

#選擇合適的頻寬

選擇不同的頻寬，核密度估計的結果也大不相同，因此人們研究了一些演算法來選擇頻寬。這方面對理解 KDE 本身沒有什麼太重要的意義，並且常見的演算法在 scipy 裡也已經都實現了，這裡就不細說了，有興趣的看看

wiki 吧。

#參考

核密度估計（kernel density estimation）

有一些資料，想“看看”它長什麼樣，我們一般會畫直方圖（Histogram）。現在你也可以用核密度估計。 #什麼是“核” 如果不瞭解背景，看到“核密度估計”這個概念基本上就是一臉懵逼。我們先說說這個核 (kernel) 是什麼。首先，“核”在不同的語境下的含義是不同的，例如在模式識別裡，它的含義就和這裡不同。

機器學習-直方圖和核密度估計（Kernel Density Estimates）

1、直方圖的問題 ①直方圖裝箱（binning）的過程會導致資訊丟失。 ②直方圖不是唯一的。對比起來比較困難。 ③直方圖不是平滑的 ④直方圖不能很好的處理極值核密度估計（KDE）完全沒有上述的問題。構建KDE需要準備核函式：下面是常用的核函式圖形和定義。

非引數估計——核密度估計（Parzen窗）

　　核密度估計，或Parzen窗，是非引數估計概率密度的一種。比如機器學習中還有K近鄰法也是非參估計的一種，不過K近鄰通常是用來判別樣本類別的，就是把樣本空間每個點劃分為與其最接近的K個訓練抽樣中，佔比最高的類別。直方圖　　首先從直方圖切入。對於隨機變數$X$的一組抽樣，即使$X$的值是連續的，我們也可以

Matplotlib學習---用seaborn畫直方圖和核密度圖（histogram & kdeplot）

tro ima 直方圖 subplot 平滑 style 創建 hist detail 由於直方圖受組距（bin size）影響很大，設置不同的組距可能會產生完全不同的可視化結果。因此我們可以用密度平滑估計來更好地反映數據的真實特征。具體可參見這篇文章：https://bl

Matplotlib學習---用matplotlib畫直方圖/密度圖（histogram, density plot）

hist true ble 次數出現的次數 ron 我們 9.1 獲取直方圖用於展示數據的分布情況，x軸是一個連續變量，y軸是該變量的頻次。下面利用Nathan Yau所著的《鮮活的數據：數據可視化指南》一書中的數據，學習畫圖。數據地址：http://dat

人體姿態估計（Human Pose Estimation）---優質學習資源

目錄 0、簡介這是一個簡單的資源僅供參考，Just for Xiuyun-Mo 0、簡介姿態估計的目標是在RGB影象或視訊中描繪出人體的形狀，這是一種多方面任務，其中包含了目標檢測、姿

核密度估計Kernel Density Estimation(KDE)

備：密度估計相關知識密度估計經常在統計學中作為一種基於有限的樣本來估計其概率密度函式的方法。在研究隨機變數的過程中，隨機變數的概率密度函式的作用是描述隨機變數的特性。但是在實際應用中，總體概率密度函式通

核密度估計 Kernel Density Estimation(KDE)

寫在前面給定一個樣本集，怎麼得到該樣本集的分佈密度函式，解決這一問題有兩個方法： 1.引數估計方法簡單來講，即假定樣本集符合某一概率分佈，然後根據樣本集擬合該分佈中的引數，例如：似然估計，混合高斯等，由於引數估計方法中需要加入主觀的先驗知識，

核模型（核密度估計）

1、核模型（Kernel function）線上性模型中，多項式或三角函式等基函式與訓練樣本{（xi,yi）}毫不相關的。下面我們介紹一種模型，在基函式設計的時候會使用到輸入樣本{xi}。 note：是在基函式設計的時候使用到樣本，那麼訓練的是什麼？下面看公式。核模型，是以

如何實現內核旁路（Kernel bypass）？

客戶機 pac 復制如果高速 har 運行 ebs 底層轉到：http://blog.jobbole.com/94976/ 在前兩篇文章中，我們討論了《如何生成每秒百萬級別的HTTP 請求？》以及如何減少往返時間。我們在 Linux 上做試驗，因為它是一個性

最大似然預計（Maximum Likelihood Estimation）

content tar eight maximum spa width src www alt 參考資料 [1] 盛驟, 謝式千, 潘承毅. 概率論和數理統計[J]. 2001. [2] https://en.wikipedia.org/wiki

一、查看Linux內核版本命令（兩種方法）：

use proc color tex 2.6 distrib oot lin hat 一、查看Linux內核版本命令（兩種方法）：1、cat /proc/version[[email protected]CentOS home]# cat /proc/versio

Linux idle程序建立過程（kernel 4.14）

idle程序是核心建立的第一個程序，也常常被叫做swapper 程序: asmlinkage __visible void __init start_kernel(void) { char *command_line; char *after_dashes;

MATLAB中自帶的核密度估計函式

我們在統計資料處理時，經常計算一個樣本的概率密度估計，也就是說給出一組統計資料，要求你繪製出它的概率分佈曲線，matlab的統計工具箱中有直接的函式就是：Ksdensity 核心平滑密度估計 [f,xi] = ksdensity(x) 計算樣本向量x的概率密度估計

【Machine learning】引數估計（個人通俗理解）

問題背景：我們知道了總體的分佈，但不知道分佈的引數，因此我們就要對未知的引數做出估計。兩個型別的估計： 1.點估計 2.區間估計 1.點估計包括矩估計和極大似然估計 1）矩估計：用樣本矩去估計總體矩這裡就可以用樣本一階矩（均值）估計整體一階矩（

極大似然估計（加例項推導）

極大似然估計：已知X是離散型隨機變數，可能的取值有0，1, 2。對應概率為：這裡X更具體解釋的話，可以理解為拋兩次硬幣，正面記1，反面記0，結果累加，只不過這裡的硬幣特殊，拋到反面的概率是θ。這時對X抽取容量為10的樣本，其中有2個0、5個1、3個2，求θ的

核密度估計與自適應頻寬的核密度估計

最近看論文，發現一個很不錯的概率密度估計方法。在此小記一下。先來看看準備知識。密度估計經常在統計學中作為一種使用有限的樣本來估計其概率密度函式的方法。我們在研究隨機變數的過程中，隨機變數的概率密度函式的作用是描述隨機變數的特性。（概率密度函式是用來描

車輛密度估計--Understanding Traffic Density from Large-Scale Web Camera Data

Understanding Traffic Density from Large-Scale Web Camera Data CVPR2017 https://arxiv.org/abs/1703.05868 本文介紹了兩個演算法用於車輛密度估計：1）OP

作圖直觀理解Parzen窗估計（附Python程式碼）

## 1.簡介 Parzen窗估計屬於**非引數估計**。所謂非引數估計是指，已知樣本所屬的類別，但未知總體概率密度函式的形式，要求我們直接推斷概率密度函式本身。 > 對於不瞭解的可以看一下https://zhuanlan.zhihu.com/p/88562356 **下面僅對《模式分類》（第二版）的內

解釋一下核主成分分析(Kernel Principal Component Analysis, KPCA)的公式推導過程（轉載）

線性不可分 itl 專註 out center forest 測試重要原因 KPCA，中文名稱”核主成分分析“，是對PCA算法的非線性擴展，言外之意，PCA是線性的，其對於非線性數據往往顯得無能為力，例如，不同人之間的人臉圖像，肯定存在非線性關系，自己做的基於ORL數據