【原創】.NET平臺機器學習元件-Infer.NET連載(二)貝葉斯分類器

阿新 • • 發佈：2019-01-15

關於本文件的說明

　　本文件基於Infer.NET 2.6對Infer.NET User Guide進行中文翻譯，但進行了若干簡化和提煉，按照原網站的思路進行，但不侷限與其順序。

　　歡迎傳播分享，必須保持原作者的資訊，但禁止將該文件直接用於商業盈利。

　　本人正在研究基於Infer.NET元件，並計劃將其應用於實際的預測之中，該元件功能強大，封裝很完善，但也有很多難以理解的地方，同時官方也給出了大量的例子，限於個人精力有限，更新時間較慢，也希望有興趣的朋友一起來完成該項工作。

1.Infer.NET貝葉斯分類器介紹

　　本教程提供了一個簡短的,循序漸進的介紹如何使用C# API建立、訓練和測試一個貝葉斯機分類器的過程。如果你只是想嘗試使用貝葉斯機器分類器,你可以提供資料一個特定格式文字檔案，不用擔心最終的效能,可以參考一下命令列的使用。

　　本專案使用的貝葉斯分類器是基於Infer.NET API構建的，原始碼等資料在本文最後的資源資訊。

2.性別預測介紹

　　本教程的目的,讓我們假設我們要根據一組給人身高和體重的資料來預測一個人的性別。讓我們進一步假設我們已經收集到的樣本大小為N=1000,而我們知道的性別作為標籤樣本單獨存放。下面圖是樣本資料視覺化的結果：

　　解決這類問題的一個方法是建立一個概率模型。Infer.NET允許您使用各種各樣的模型。在描述了這個分類問題後,我們已經給你準備了一個完整和穩定的模型,所以你不需要做這個工作。然而,我們建立的貝葉斯機器(BPM)分類器,必須要有一些前提條件，這些你可能要搞清楚。如果這些假設不滿足你的情況,你自己可以考慮建立一個更符合你實際情況的概率模型。

樣本資料中包含508名女性(紅色)和508名男性(藍色)。樣本中的女性平均身高是162釐米,男性平均身高為175.2釐米。女性平均體重為70.1公斤,男性平均體重為83.8公斤。正如人們所預料的,該圖的中，兩組資料的顯示有很大的重疊,這意味著給定一個人的身高和體重，並不能完全的區分為男性或者女性。現在,根據這些資料，那麼一個身高183釐米,體重78公斤的人是一個女人的可能性大嗎?

　　使用Visual Studio建立專案，並新增下面幾個dll引用：Infer.Learners.dll，Infer.Learners.Classifier.dll，Infer.Runtime.dll。這個過程比較簡單，基本忽略。

3.資料和對映

　　針對上述提供的資料。每個人的身高和體重是以向量例項儲存在記憶體中的，相應的性別以字串型別物件表示的，其值是“女性”或“男性”。因此整個樣本，包含個數是1000的向量陣列物件和1000個字串型別物件。

相關說明：

　　1.貝葉斯機器分類器模型並不顯式地指定一個預期結果。然而,在許多分類問題中，新增一個預期結果是至關重要的,因為它使得貝葉斯分類器以固定的特性轉換特徵(決策邊界不需要原始資料特徵),從而顯著的影響預測效能[翻譯不太準確]。BPM可以實現新增預期值的功能,使其總有1這個值。如果你的分類資料還不包括這樣一個常數特徵值,你應該很想將它新增到特徵向量中。

　　2.如果特性(包括預期值)是高度相關的，貝葉斯機器分類器的訓練可能出現收斂速度慢的情況。

　　在上述性別預測的例子中,我們可以使用了一個增強的三維特徵向量,不僅包含一個人的身高和體重,還有額外的特徵值為1。此外,讓我們在原始資料中減去平均身高和平均體重，這就消除身高、體重和預期值之間的相關性。

　　資料可以儲存在各種不同的格式中。通常的您的資料格式都和學習者Learner所預期要求的資料型別都不一致。這意味著您必須將原始資料轉化為學習者的格式。這在一些小的用例測試中，當然是一個合理的選擇,但對於大型的真實資料集,這種轉換代價是非常大的。因此為了避免使用者輸入固定型別的資料，Infer.NET提供了一個靈活的機制,允許您指定學習者應該如何使用他們的輸入資料。這種機制被稱為對映。一個對映定義輸入資料是如何傳遞到Infer.NET的學習者中的。因為它讓你選擇最方便的格式,它有助於避免不必要的資料轉換。

　　貝葉斯機器分類器中有兩種不同型別的對映,詳細可以參考Mappings類。在我們簡單介紹的例子中,最簡單的將輸入資料對映到一個表單以便於貝葉斯分類器理解的方法是實現IClassifierMapping介面，如下所示：　　

 1 /// <summary>
 2 /// A mapping for the Bayes Point Machine classifier tutorial.
 3 /// </summary>
 4 public class ClassifierMapping: IClassifierMapping<IList<Vector>, int, IList<string>, string, Vector>
 5 {
 6     public IEnumerable<int> GetInstances(IList<Vector> featureVectors)
 7     {
 8         for (int instance = 0; instance < featureVectors.Count; instance++)
 9         {
10             yield return instance;
11         }
12     }
13     public Vector GetFeatures(int instance, IList<Vector> featureVectors)
14     {
15         return featureVectors[instance];
16     }
17 
18     public string GetLabel(int instance, IList<Vector> featureVectors, IList<string> labels)
19     {
20         return labels[instance];
21     }
22 
23     public IEnumerable<string> GetClassLabels(IList<Vector> featureVectors = null, IList<string> labels = null)
24     {
25         return new[] { "Female", "Male" };
26     }
27 }

為了實現IClassifierMapping 介面，必須要實現以下幾點：

1.哪個是要分批交給分類器的物件？(GetInstances);

2.如何獲取給定例項的特徵值？ (GetFeatures);

3.如何獲取給定例項實際的標籤值? (GetLabel);

4.獲取資料中所有不同型別標籤值，相當於標籤範圍(GetClassLabels)。

4.建立貝葉斯分類器，並訓練，預測和評估

4.1 建立分類器

有了手動建立的資料對映，就可以建立貝葉斯機器分類器，如下所示：

1 有了手動建立的對映，就可以建立貝葉斯機器分類器，如下所示：
2 // Create the Bayes Point Machine classifier from the mapping
3 var mapping = new ClassifierMapping();
4 var classifier = BayesPointMachineClassifier.CreateBinaryClassifier(mapping);

4.2 訓練

這樣，就可以使用分類器根據身高和體重去學習和預測性別。使用1000個樣本去訓練貝葉斯機器分類器,如下所示：

1 // Train the Bayes Point Machine classifier on the gender data
2 classifier.Train(trainingSet.FeatureVectors, trainingSet.Labels);

trainingSet.FeatureVectors是一個包括身高和體重測量資料的向量陣列，trainingSet.Labels是一個代表性別的預期標籤。

注意，訓練貝葉斯我們並不需要設定任何引數，如前置分佈權重。這是因為貝葉斯機器分類器是無需超引數的(hyper-parameter)。這不僅避免了一些錯誤的引數設定，還可以自動移除一些影響執行時間的引數。更厲害的是：它甚至不需要規範化的資料輸入，貝葉斯機器分類器能夠自己自動適應不同尺度的觀察資料。這些都是通過heavy-tailed 前置分佈權重設定的。

4.3 預測

　　使用訓練後的貝葉斯機器分類器，就能夠預測那些只有身高和體重資料的人的性別。特別是，現在我們可以回答之前那個身高183釐米,體重178公斤的人是一個女人的可能性有多大。如下程式碼：

1 // Making predictions on previously unseen data
2 var predictions = classifier.PredictDistribution(testSet.FeatureVectors);

testSet.FeatureVectors是一個只包含身高，體重以及預期值的向量陣列。

呼叫PredictDistribution在測試集中，給每個例項返回一個伯努利分佈，這個事實說明給定一個人的身高和體重，我們通常並不能完全確定一個人的性別。例如：

1 P(gender = 'Female' | height = 183cm, weight = 78kg) = 0.07

根據訓練集1000個樣本的觀測資料，這個身高183釐米,體重78公斤的人是女性的概率是7%。在許多情況下,您可能需要預測一個最終確定的答案，而不是呼叫PredictDistribution,然後簡單地預測，給出概率，例如，我們可以這樣寫：

1 // Making decisions
2 string estimate = classifier.Predict(InstanceOfInterest, testSet.FeatureVectors);

結果是：Male

注意,這種精確的分類預測仍然需要計算預測分佈作為一箇中間步驟。此外,最佳的精確答案不一定是最有可能的類。

4.4 評估測試

為了評價分類器的預測情況,我們需要利用一些不同於訓練集的有標籤的資料,因此我們假定我們可以得到一組100個額外的真實性別，體重和身高的測量記錄。一個評價過程要通過ClassifierEvaluator進行,如下:

1 // Create an evaluator for mapping
2 var evaluatorMapping = mapping.ForEvaluation();
3 var evaluator = 
4     new ClassifierEvaluator<IList<Vector>, int, IList<string>, string>(
5         evaluatorMapping);

結果：Accuracy = 0.85；AUC = 0.926

ClassifierEvaluator also allows you to get the receiver operating characteristic curve itself (for "Female" as the designated positive class):

1 IEnumerable<Pair<double, double>> rocCurve = 
2     evaluator.ReceiverOperatingCharacteristicCurve(
3         "Female", testSet.FeatureVectors, predictions);

　　我們將在後續的文章中分享關於基於Infer.NET元件構建的貝葉斯機器分類器更多的功能和相關細節。

5.資源

　　本人手動製作了Infer.NET 2.6的幫助文件，CHM格式，還有貝葉斯分類器的相關程式碼，

　　檔案比較大，將通過郵箱與30日下午統一發送，需要的朋友留Email。　

如果您看完本篇文章感覺不錯，請點選一下右下角的【推薦】來支援一下博主，謝謝！

【原創】.NET平臺機器學習元件-Infer.NET連載(二)貝葉斯分類器

關於本文件的說明

1.Infer.NET貝葉斯分類器介紹

2.性別預測介紹

3.資料和對映

4.建立貝葉斯分類器，並訓練，預測和評估

4.1 建立分類器

4.2 訓練

4.3 預測

4.4 評估測試

5.資源

【原創】.NET平臺機器學習元件-Infer.NET連載(一)介紹

【原創】.NET平臺機器學習元件-Infer.NET連載(二)貝葉斯分類器

.NET平臺機器學習元件-Infer.NET(三) Learner API—資料對映與序列化

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

機器學習筆記（六）：貝葉斯分類器

機器學習演算法筆記之4：貝葉斯分類器

《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

Python機器學習與實戰筆記之樸素貝葉斯分類

機器學習實戰第四章——樸素貝葉斯分類(原始碼解析)

機器學習-帶你搞懂樸素貝葉斯分類演算法

【機器學習實踐】用Python實現樸素貝葉斯分類器

【機器學習－西瓜書】七、樸素貝葉斯分類器

【機器學習】樸素貝葉斯分類器

【機器學習算法-python實現】掃黃神器-樸素貝葉斯分類器的實現

機器學習：貝葉斯分類器

機器學習系列——樸素貝葉斯分類器（二）

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

機器學習---樸素貝葉斯分類器（Machine Learning Naive Bayes Classifier）

機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

機器學習實戰讀書筆記(3)--樸素貝葉斯

【原創】.NET平臺機器學習元件-Infer.NET連載(二)貝葉斯分類器

關於本文件的說明

1.Infer.NET貝葉斯分類器介紹

2.性別預測介紹

3.資料和對映

4.建立貝葉斯分類器，並訓練，預測和評估

4.1 建立分類器

4.2 訓練

4.3 預測

4.4 評估測試

5.資源

相關推薦