Boosting集合演算法詳解（一）

二、K-means

1. 演算法步驟

<1> 選擇 $K$ 個點作為初始質心
<2> Repeat：
<3> 將每個點指派到最近的質心，形成 $K$ 個簇
<4> 重新計算每個簇的質心
<5> Until: 質心不發生變化終止

2. 距離的度量

閔可夫斯基距離不是一種距離，而是一類距離的定義。對於 n 維空間中的兩個點 $x (x_{1}, x_{2}, x_{3}, . . ., x_{n})$ 和 $y (y_{1}, y_{2}, y_{3}, . . ., y_{n})$ ，那麼 $x$ 和 $y$ 亮點之間的閔可夫斯基距離為：

d_{x y} = \sqrt{\sum_{i = 1}^{n} {(x_{i} - y_{i})}^{p}}

其中p是一個可變引數：

當p=1時，被稱為曼哈頓距離；
當p=2時，被稱為歐式距離；
當p= $\infty$ 時，被稱為切比雪夫距離。

餘弦相似度：

c o s (Θ) = \frac{a^{T} b}{| a | * | b |}

$a, b$ 表示兩個向量， $| a |$ 和 $| b |$ 表示向量的模。餘弦相似度一般衡量兩個向量的相似情況，常用與文字處理。餘弦角越小越相似。

傑卡德（Jaccard）相似係數

J (A, B) = \frac{| A ⋂ B |}{| A ⋃ B |}

這裡， $A 、 B$ 表示集合， $A ⋂ B$ 表示兩個集合公共元素的個數， $A ⋃ B$ 表示兩個集合並集元素的個數。 Jaccard 相似係數適用於度量兩個集合的相似程度，取值在 0～1 之間，越大越相似。在推薦系統中常用衡量客戶或商品的相似度。

3. 變數標準化

在聚類前，通常需要對個連續變數進行標準化，因為方差大的變數比方差曉得變數對距離或相似度的影響更大，從而對聚類結果的影響更大。

常用的方法有：

正態標準化： $x_{i} = \frac{x_{i} - m e a n (X)}{s t d (X}$
歸一化： $x_{i} = \frac{x_{i} - m i n (X)}{m a x (X) - m i n (X)}$

4. 變數的維度分析

假設一組變數中，一個維度有5個變數，二另一個維度只有1個變數，則第一個維度的權重被明顯提高了。一般情況下，每個維度上使用的變數個數應該是一樣的，不過分析人員要結合具體場景不同維度提供不同數量的變數個數，這相當於加大了一些維度的權重。

除了機遇業務定義進行變數的選擇，另一種常用的方法是在聚類之前進行主成分分析。

5. 質心的目標函式

5.1 SSE 誤差平方和

聚類的目標通常用一個目標函式表示，該函式依賴於點之間，或點到簇的質心的臨近性；
如，考慮臨近性度量為歐幾里得距離的資料，我們使用誤差平方和（SSE）作為度量聚類質量的目標函式，即最小化簇中點到質心的距離平方和。 SSE也稱散佈（scatter），定義如下：

S S E = \sum_{i = 1}^{K} \sum_{x \in C_{i}} d i s t (c_{i}, x)^{2}

其中，

d i s t

是歐幾里得空間中兩個物件之間的標準歐幾里得距離。

給定這些假設，實際上可以證明：對 SSE 求導，另導數為 0 求解 $c_{k}$ 使簇的 SSE 最小的質心是均值；

\frac{\partial}{\partial c_{k}} S S E = \frac{\partial}{\partial c_{k}} \sum_{i = 1}^{K} \sum_{x \in C_{i}} (c_{i}, x)^{2} = 0

Boosting集合演算法詳解（一）

二、K-means

1. 演算法步驟

2. 距離的度量

3. 變數標準化

4. 變數的維度分析

5. 質心的目標函式

5.1 SSE 誤差平方和

Boosting集合演算法詳解（一）

java集合框架詳解（一）

LeetCode演算法詳解（一）--Two Sum

SSD演算法Tensorflow版詳解（一）

Java基礎集合詳解（一）

集合詳解（一）：Collection以及簡單資料結構

c++ LeetCode（陣列篇簡單級別）演算法例題程式碼詳解（一）

elastic-job詳解（一）：數據分片

JVM的基本結構及其各部分詳解（一）

設計模式詳解（一）

mybatis 詳解（一）------JDBC

Maven詳解（一）------ Maven概述

.Net AppDomain詳解（一）

防火墻iptables詳解（一）

Windows滲透利器之Pentest BOX使用詳解（一）

JVM類加載機制詳解（一）JVM類加載過程

Java的反射機制詳解（一）

PHP基礎入門詳解（一）【世界上最好用的編程語言】

Zookeeper詳解（一）：分布式與Zookeeper

dns詳解（一）