【SciKit-Learn學習筆記】6：樸素貝葉斯做文件分類並繪製混淆矩陣

學習《scikit-learn機器學習》時的一些實踐。

條件獨立

樸素即指的是條件獨立假設，假設n個特徵之間不相關，則可據聯合概率的條件展開式：
$p (C_{k}) P$

( x ∣ C k ) = P (

C k , x ) = P ( x

1 , x 2 , . . , x n , C k ) = P ( x 1 ∣ x 2 , . . , x n , C k ) P ( x 2 , . . , x n , C k ) = P ( x 1 ∣ x 2 , . . , x n , C k ) P ( x 2 ∣ x 3 , . . , x n , C k ) P ( x 3 , . . , x n , C k ) . . . . . . = P ( x 1 ∣ x 2 , . . , x n , C k ) P ( x 2 ∣ x 3 , . . , x n , C k ) . . . P ( x n ∣ C k ) P ( C k ) p(C_k)P(\pmb{x}|C_k)=P(C_k,\pmb{x}) \\=P(x_1,x_2,..,x_n,C_k) \\=P(x_1|x_2,..,x_n,C_k)P(x_2,..,x_n,C_k) \\=P(x_1|x_2,..,x_n,C_k)P(x_2|x_3,..,x_n,C_k)P(x_3,..,x_n,C_k) \\...... \\=P(x_1|x_2,..,x_n,C_k)P(x_2|x_3,..,x_n,C_k)...P(x_n|C_k)P(C_k)

p (C_{k}) P (x x x ∣ C_{k}) = P (C_{k}, x x x) = P (x_{1}, x_{2}, . ., x_{n}, C_{k}) = P (x_{1} ∣ x_{2}, . ., x_{n}, C_{k}) P (x_{2}, . ., x_{n}, C_{k}) = P (x_{1} ∣ x_{2}, . ., x_{n}, C_{k}) P (x_{2} ∣ x_{3}, . ., x_{n}, C_{k}) P (x_{3}, . ., x_{n}, C_{k}) . . . . . . = P (x_{1} ∣ x_{2}, . ., x_{n}, C_{k}) P (x_{2} ∣ x_{3}, . ., x_{n}, C_{k}) . . . P (x_{n} ∣ C_{k}) P (C_{k})

將其中的

P(x_i|x_{i+1},x_{i+2},..,x_n,C_k)

變為

P(x_i|C_k)

從而，樸素貝葉斯下的聯合概率可展開為：

P(x_1,x_2,..,x_n,C_k)=P(x_1|C_k)P(x_2|C_k)...P(x_n|C_k)P(C_k)

右側的每一項都可從資料集中統計出來，因此可通過計算和比較聯合概率來比較後驗概率，以對類別做判斷。

對於連續的特徵值，可以通過區間劃分形成離散值。但對於小資料集，這樣做的偏差太大。可以通過考慮該特徵作為隨機變數的概率分佈，計算其統計量並放入相應的概率分佈函式模型中做計算。如計算方差 $\sigma$ 和均值 $\mu$ 便可得到正態分佈的概率密度函式。

概率分佈

概率分佈是描述隨機變數的概率規律。

PDF和PMF

概率密度函式（PDF）用於描述連續型隨機變數在某個特定值的可能性，概率質量函式（PMF）用於描述離散型隨機變數在某個特定值的可能性。

伯努利分佈

即零一分佈、兩點分佈，意在非黑即白：
$f(k;p)=p^k(1-p)^{1-k}，其中k=0,1$

類別分佈

不止兩種情況，即可能有多種情況：
$f (x ∣ p) = \prod_{i = 1}^{n} p_{i}^{x_{i}} ，其相關推薦 .r{ margin-bottom:10px; border-bottom:1px solid #f1f1f1; padding-bottom:10px;}
.r p{ color:#999; line-height:25px;}
.r h5 a{ font-size:16px; line-height:25px;}
.r h5 a:hover{ color:#ff6600} 【 SciKit - Learn 學習筆記】 6 ：樸素貝葉斯做文件分類並繪製混淆矩陣學習《scikit-learn機器學習》時的一些實踐。

條件獨立
樸素即指的是條件獨立假設，假設n個特徵之間不相關，則可據聯合概率的條件展開式：

p 【 SciKit - Learn 學習筆記】 5 ：核SVM 分類和預測乳腺癌資料集學習《scikit-learn機器學習》時的一些實踐。

常用引數
引數C
SVM分類器svm.SVC()中的引數C即SVM所優化的目標函式

a 【 SciKit - Learn 學習筆記】 8 ： k-均值演算法做文字聚類,聚類演算法效能評估學習《scikit-learn機器學習》時的一些實踐。

原理見K-means和K-means++的演算法原理及sklearn庫中引數解釋、選擇。
sklearn中的KMeans
from sklearn.datasets import make_blobs
from m 【 SciKit - Learn 學習筆記】 7 ： PCA結合SVM 做 AT&T資料集人物影象分類學習《scikit-learn機器學習》時的一些實踐。

原理見PCA及繪製降維與恢復示意圖。
sklearn的PCA
sklearn中包裝的PCA也是不帶有歸一化和縮放等預處理操作的，可以用MinMaxScaler()實現並裝在Pipeline裡封裝起來。
from 【 SciKit - Learn 學習筆記】 4 ：決策樹擬合泰坦尼克號資料集並提交到Kaggle 學習《scikit-learn機器學習》時的一些實踐。

決策樹擬合泰坦尼克號資料集
這裡用繪製引數-score曲線的方式去直觀看出模型引數對模型得分的影響，作者使用了GridSearchCV來自動做k-fold交叉驗證，並且能在多組模型引數中找到最優的一組和最優值（用平均s 【 SciKit - Learn 學習筆記】 3 ：線性迴歸測算波士頓房價,Logistic迴歸預測乳腺癌學習《scikit-learn機器學習》時的一些實踐。

線性迴歸
這部分和第一篇筆記"繪製隨機波動樣本的學習曲線 "部分基本類似。線性迴歸裡可以加入多項式特徵，以對模型做增強。
線性迴歸增加多項式特徵,擬合sin函式
import numpy as np
impor 【 SciKit - Learn 學習筆記】 2 ： kNN 分類 /迴歸,在糖尿病資料集上的表現學習《scikit-learn機器學習》時的一些實踐。

kNN分類
在三個點周圍生成聚類樣本，然後做的kNN分類。
這種把標準差取得好（不要太小），得到的就不一定是線性可分的資料了。比如圖上右側有個玫紅點和藍點交錯。
from sklearn.datasets.sa 【 SciKit - Learn 學習筆記】 1 ： SVM預測digits資料集, 繪製隨機波動樣本的學習曲線學習《scikit-learn機器學習》時的一些實踐。

SVM預測digits資料集
sklearn裡的各種模型物件統一了介面，fit()做訓練，predit()做預測，用score()獲得對模型測試結果的打分。
這裡的打分不是acc，應該是決定係數。
檢視資料形式【 Vue.js 學習筆記】 6 ：動態繫結CSS樣式,條件渲染和v-show 動態繫結CSS樣式
這部分涉及官方文件中的Class與Style繫結。
index.html
<!DOCTYPE html>
<html lang="en" xmlns:v-bind="http://www.w3.org/1999/xhtml" xmlns: 【學習筆記】 matlab演算法實現貝葉斯判別classify函式貝葉斯判別：物件（總體）在抽樣前已有一定的認識，常用先驗分佈來描述這種認識，然後給予抽取的樣本再對先驗認識作修正，得到後驗分佈，而各種統計推斷均基於後驗分佈進行。將Bayes 統計的思想用於判別分析，就得到Bayes判別。

在Matlab軟體包中，將已經分類的m個數【機器學習】使用樸素貝葉斯進行文件分類樸素貝葉斯的一般過程：

1、收集資料：任何方法 2、準備資料：需要數值型或者布林型資料 3、分析資料：有大量特徵時，繪製特徵作用不大，此時使用直方圖效果更好 4、訓練演算法：計算不同的獨立特徵的條件概率 5、測試演算法：計算錯誤率 6、使用演算法：常見的樸素貝葉斯應用是用Python開始機器學習（ 6 ：樸素貝葉斯分類器）樸素貝葉斯分類器是一個以貝葉斯定理為基礎，廣泛應用於情感分類領域的優美分類器。本文我們嘗試使用該分類器來解決上一篇文章中影評態度分類。1、貝葉斯定理假設對於某個資料集，隨機變數C表示樣本為C類的概率，F1表示測試樣本某特徵出現的概率，套用基本貝葉斯公式，則如下所示：上式表示對機器學習筆記（一）樸素貝葉斯的Python程式碼實現上研究生的時候，一心想讀生物資訊學的方向，由此也選修了生物數學，計算生物學等相關課程。給我印象最深的是給我們計算生物學的主講老師，他北大數學系畢業，後來做起了生物和數學的交叉學科研究。課上講的一些演算法比如貝葉斯，馬爾科夫，EM等把我給深深折磨了一遍。由於那時候統計學習筆記（四）樸素貝葉斯法樸素貝葉斯法

4.1 naive Bayes的學習與分類

4.1.1 基本方法

設輸入空間為n維向量的集合X⊆Rn，輸出空間為類標記的集合Y={c1,c2,...,cK}。輸入為特徵向量x∈X，輸出為類標記y∈Y。X是定義在輸入空間上的隨機變數，Y 統計學習筆記（4）—— 樸素貝葉斯法樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。簡單來說，樸素貝葉斯分類器假設樣本每個特徵與其他特徵都不相關。舉個例子，如果一種水果具有紅，圓，直徑大概4英寸等特徵，該水果可以被判定為是蘋果。儘管這些特徵相互依賴或者有些特徵由其他特徵決定，然而樸素貝葉斯分類器認機器學習筆記（六）—— 樸素貝葉斯法的引數估計一、極大似然估計

在上一筆記中，經過推導，得到了樸素貝葉斯分類器的表示形式：

y=argmaxckP(Y=ck)∏jP(X(j)=x(j)|Y=ck)(1)

也就是說，樸素貝葉斯方法的學習是對概率P(Y=ck)和P(X(j)=x(j)|Y=ck)的【 python 學習筆記】 6 ：用Gauss-Legendre求積公式近似求積分值高斯-勒讓德求積公式給出了一個定積分的近似求法：

不妙的是這種求法對上下限要求為1和-1，但是因為積分可以變限，所以求任意定積分只要做變換就好：

用高斯公式求積分的近似值，精確度是非常高的，一般用幾個點就可以得到很不錯的近似值。這裡用了三點高斯積分和五點高斯積分。【 MongoDB 學習筆記】 6 ：資料備份(mongodump)與恢復(mongorestore)流程備份資料

要備份某個DB中的全部Collection，相當於備份RDBMS中某個Schema下的全部Table。比如想要備份這個DB：

> show dbs
admin 0.000GB
config 0.000GB
local 0.000 【 Vue.js 學習筆記】 9 ：使用npm搭建Vue-CLI腳手架並建立Vue專案在第一篇的時候確實可以建立，這次跟著視訊搭建一次，比較一下和上次的區別，更正一下上次的錯誤操作，加深理解。
重新搭建Vue-CLI腳手架
在Node.js的安裝目錄下，刪除node_cache/和node_global下的所有內容，即讓Node處於剛剛安裝完成的狀態，連cnpm也【 Vue.js 學習筆記】 8 ：建立多個Vue例項物件,認識Vue中的元件建立多個Vue例項物件
這裡在同一個js檔案中建立了兩個Vue例項物件，它們各自能完成前面學的那些功能，同時使用物件名稱也可以互相訪問，協同實現一些功能。
index.html
<!DOCTYPE html>
<html lang="en" xmlns:v-搜尋基礎教學 Mysql入門 Sql入門 Android入門 Docker入門 Go語言入門 Ruby程式入門 Python入門 Python進階 Django入門 Python爬蟲入門最近訪問首頁前端設計程式設計免費資源實用技巧資料庫資訊字典 Copyright © 2002-2020 程式人生 796T.COM All rights reserved..footer{padding-bottom: 20px;}hljs.initHighlightingOnLoad();$

【SciKit-Learn學習筆記】6：樸素貝葉斯做文件分類並繪製混淆矩陣

條件獨立

概率分佈

PDF和PMF

伯努利分佈

類別分佈

【SciKit-Learn學習筆記】6：樸素貝葉斯做文件分類並繪製混淆矩陣

【SciKit-Learn學習筆記】5：核SVM分類和預測乳腺癌資料集

【SciKit-Learn學習筆記】8：k-均值演算法做文字聚類,聚類演算法效能評估

【SciKit-Learn學習筆記】7：PCA結合SVM做AT&T資料集人物影象分類

【SciKit-Learn學習筆記】4：決策樹擬合泰坦尼克號資料集並提交到Kaggle

【SciKit-Learn學習筆記】3：線性迴歸測算波士頓房價,Logistic迴歸預測乳腺癌

【SciKit-Learn學習筆記】2：kNN分類/迴歸,在糖尿病資料集上的表現

【SciKit-Learn學習筆記】1：SVM預測digits資料集,繪製隨機波動樣本的學習曲線

【Vue.js學習筆記】6：動態繫結CSS樣式,條件渲染和v-show

【學習筆記】matlab演算法實現貝葉斯判別classify函式

【機器學習】使用樸素貝葉斯進行文件分類

用Python開始機器學習（6：樸素貝葉斯分類器）

機器學習筆記（一）樸素貝葉斯的Python程式碼實現

統計學習筆記（四）樸素貝葉斯法

統計學習筆記（4）——樸素貝葉斯法

機器學習筆記（六）——樸素貝葉斯法的引數估計

【python學習筆記】6：用Gauss-Legendre求積公式近似求積分值

【MongoDB學習筆記】6：資料備份(mongodump)與恢復(mongorestore)流程

【Vue.js學習筆記】9：使用npm搭建Vue-CLI腳手架並建立Vue專案

【Vue.js學習筆記】8：建立多個Vue例項物件,認識Vue中的元件