從零開始-Machine Learning學習筆記(31)-規則學習

文章目錄

1. 基本概念
2. 序貫覆蓋
3. 剪枝優化

3.1 預剪枝-CN2演算法
3.2 後剪枝-RIPPER演算法

4. 一階規則學習
5. 歸納邏輯程式設計(ILP)

5.1 最小一般泛化
5.2 逆歸結

1. 基本概念

“規則學習” (rule learning)是從訓練資料中學習出一組能用於對未見示例進行判別的規則。 形式上一般為：

式子中，右邊的部分稱為規則體(Body)，表示該條規則的前提，由一系列邏輯文字(Literal) $f_k$ 組成的合取式，合取符號 $\bigwedge$

⋀

表示“並且”。左邊的部分稱為 邏輯頭(Head)，表達該條規則的結果，也是邏輯文字，一般用來表示規則所判定的目標類別或概念。
規則集合中的每條規則都可看作一個子模型，規則集合是這些子模型的一個整合。當同一個示例被判別結果不同的多條規則覆蓋時，稱發生了"衝突" (conflict)，解決衝突的辦法稱為 “衝突消解” (conflict resolution)。常用的衝突消解策略有投票法、排序法、元規則法等。

從形式語言表達能力而言，規則可以分為兩類：
命題規則(Propositional rule):是由"原子命題" (propositional atom)和邏輯連線詞"與"( $⋀$

\bigwedge

⋀

)、“或”(V)、“非"和"蘊含” (←)構成的簡單陳述句；
一階規則(First-order rule):基本成分是能描述事物的屬性或關係的"原子公式" (atomic formula)。

2. 序貫覆蓋

規則學習的目標是產生一個能覆蓋儘可能多的樣例的規則集。最直接的做法是 “序貫覆蓋”(sequential covering)，即逐條歸納:在訓練集上每學到一條規則，就將該規則覆蓋的訓練樣例去除，然後以剩下的訓練樣例組成訓練集重複上述過程。由於每次只處理一部分資料，因此也被稱為"分治" (separate-and-conquer) 策略。
但是這種基於窮盡搜尋的做法在屬性和候選值較多時會由於組合爆炸而不可行。現實任務中一般有兩種策略來產生規則：
"自頂向下"(Top-down)：即從比較一般的規則開始，逐漸新增新文字以縮小規則覆蓋範圍，直到滿足預定條件為止;亦稱為"生成-測試"(generate-then-test)法，是規則逐漸"特化" (specialization)的過程；
"自底向上"(Bottom-up)：，即從比較特妹的規則開始，逐漸刪除文字以擴大規則覆蓋範圍，直到滿足條件為止;亦稱為"資料驅動" (data-driven)法，是規則逐漸"泛化"(generalization)的過程。
由於序貫覆蓋法簡單有效，幾乎所有規則學習演算法都以它為基本框架。它能方便地推廣到多分類問題上，只需將每類分別處理即可:當學習關於第c類的規則時，將所有屬於類別c的樣本作為正例，其他類別的樣本作為反例。

3. 剪枝優化

規則生成本質上是一個貪心搜尋過程，需有一定的機制來緩解過擬合的風險，最常見的做法是剪枝(pruning)。與決策樹相似，剪枝可發生在規則生長過程中，即"預剪枝"也可發生在規則產生後，即"後剪枝"通常是基於某種效能度量指標來評估增/刪邏輯文字前後的規則效能，或增/刪規則前後的規則集效能，從而判斷是否要進行剪枝。

3.1 預剪枝-CN2演算法

預剪枝可以藉助統計顯著性檢驗來進行，CN2演算法在預剪枝的時候，假設用規則集進行預測必須顯著優於直接基於訓練樣例集後驗概率分佈進行預測。 CN2演算法使用了似然率統計量(Likelihood Ratio Stl1tistics, LRS)，用m+與m-表示訓練樣本中正反樣本的數量， $m_{+}^{'}$ 與 $m_{-}^{'}$ 表示規則所覆蓋的正反樣本數量，於是有：

上式實際上是一種資訊量指標，衡量了規則(集)覆蓋樣例的分佈與訓練集經驗分佈的差別: LRS越大，說明採用規則(集)進行預測與直接使用訓練集正、反例比率進行猜測的差別越大; LRS越小，說明規則(集)的效果越可能僅是偶然現象。

3.2 後剪枝-RIPPER演算法

後剪枝最常用的策略是"減錯剪枝"(Reduced Error Pruning, REP)，其基本做法是：將樣例集劃分為訓練集和驗證集，從訓練集上學得規則集R後進行多輪剪枝，在每一輪窮舉所有可能的剪枝操作，包括刪除規則中某個文字、刪除規則結尾文字、刪除規則尾部多個文字、刪除整條規則等，然後用驗證集對剪枝產生的所有候選規則集進行評估，保留最好的那個規則集進行下一輪剪枝，如此繼續，直到無法通過剪枝提高驗證集上的效能為止。這種方法與在決策樹一章中的思路其實類似：都是判斷剪枝前後的效能，如果剪枝後效能提升就執行剪枝操作。
REP剪枝比較有效，但是其複雜度在 $O(m^4)$ 。於是有了可以將複雜度將為 $O(mlog^2 m)$ 的IREP(Incremental REP)方法：在生成每條規則前，先將當前樣例集劃分為訓練集和驗證集，在訓練集上生成一條規則r，立即在驗證集上對其進行REP剪枝，得到規則r’;將r’覆蓋的樣例去除，在更新後的樣例集上重複上述過程。顯然，REP是針對規則集進行剪枝，而IREP僅對單條規則進行剪枝，因此後者比前者更高效。
若將剪枝機制與其他一些後處理手段結合起來對規則集進行優化，則往往能獲得更好的效果，RIPPER(Repeated Incremental Pruning to Produce Error Reduction, RIPPER)演算法就是其中的代表：先使用 $IREP^{*}$ (IREP的改進版，主要用 $\frac{m_{+}^{'}+(m_- - m_{-}^{'})}{m_+ + m_-}$ 取代了IREP使用的準確率作為規則效能度量指標，在剪枝時刪除規則尾部的多個文字，並在最終得到規則集之後再進行一次IREP剪枝。)剪枝機制生成規則集R。其演算法描述如下：

4. 一階規則學習

受限於命題邏輯表達能力命題規則學習難以處理物件之間的"關係" (relation)，而關係資訊在很多工中非常重要。因此需用一階邏輯表示，並且要使用一階規則學習。所謂一階邏輯表示其實就是利用比較，將原來的單一的表示用比較的方式來描述，如花的顏色為淡紅色，另一隻花的顏色比第一隻更紅。 於是其表達形式變化不大，還是由邏輯頭和邏輯體構成，但是描述方式發生了變化：
$更好(X，Y) ← 更好(X，Z) \bigwedge 更好(Z，Y)$
無論是邏輯頭還是邏輯體都變成了“更好(X，Y)”的形式，表示X比Y更好。

FOIL(First-Order Inductive Learner)演算法是著名的一階規則學習演算法，它遵循序貫覆蓋框架旦採用自頂向下的規則歸納策略。FOIL使用 “FOIL增益”(FOIL gain) 來選擇文字:
$F_Gain = m_{+}^{'} \times (log_2 \frac{m_{+}^{'}}{m_{+}^{'}+m_{-}^{'}} - log_2 \frac{m_+}{m_+ + m_-})$
其中， $m_{+}^{'}$ 與 $m_{-}^{'}$ 分別為增加候選文字後新規則所覆蓋的正、反例數， $m_+$ 與 $m_-$ 為原規則覆蓋的正、反例數。FOIL 增益與決策樹使用的資訊增益不同，它僅考慮正例的資訊量，並且用新規則覆蓋的正例數作為權重。這是由於關係資料中正例數往往遠少於反例數，因此通常對正例應賦予更多的關注。

FOIL可大致看作命題規則學習與歸納邏輯程式設計之間的過渡，其自頂向下的規則生成過程不能支援函式和邏輯表示式巢狀，因此規則表達能力仍有不足;但它是把命題規則學習過程通過變數替換等操作直接轉化為一階規則學習，因此比一般歸納邏輯程式設計技術更高效。

5. 歸納邏輯程式設計(ILP)

歸納邏輯程式設計(Inductive Logic Programmi, ILP) 在一階規則學習中引入了函式和邏輯表示式巢狀。

5.1 最小一般泛化

歸納邏輯程式設計採用自底向上的規則生成策略，直接將一個或多個正例所對應的具體事實(grounded fact)作為初始規則，再對規則逐步進行泛化以增加其對樣例的覆蓋率。泛化操作可以是將規則中的常量替換為邏輯變數，也可以是刪除規則體中的某個文字。
以一下的例子用於輔助理解：
$更好(1 ， 10) ← 根蒂更蜷(1 ， 10) \wedge 聲音更沉(1 ， 10) \wedge臍部更凹(1 ， 10)\wedge觸感更硬(1 ， 10) \\ 更好(1 ， 15) ←根蒂更蜷(1 ， 15) \wedge 臍部更凹(1 ， 15) \wedge觸感更硬(1 ， 15)$

首先取出左邊相同的邏輯文字：根蒂更蜷，臍部更凹，觸感更硬；將相同的位置的10和15用Y代替，於是就有了更一般的表達：
$更好(1 ，Y) ←根蒂更蜷(1 ，Y) \wedge 臍部更凹(1 ， Y) \wedge觸感更硬(1 ， Y)$
這個時候再來了另外的一個規則：
$更好 (2 ， 10) \leftarrow 顏色更深 (2 ， 10) \land 根蒂更蜷 (2 ， 10) \land 敲聲更沉 (2 ， 10) \land 臍相關推薦 .r{ margin-bottom:10px; border-bottom:1px solid #f1f1f1; padding-bottom:10px;}
.r p{ color:#999; line-height:25px;}
.r h5 a{ font-size:16px; line-height:25px;}
.r h5 a:hover{ color:#ff6600} 從零開始 - Machine Learning 學習筆記 (31)- 規則學習文章目錄

1. 基本概念
2. 序貫覆蓋
3. 剪枝優化

3.1 預剪枝-CN2演算法
3.2 後剪枝-RIPPER演算法

4. 一階規則學習
5. 歸納邏從零開始 - Machine Learning 學習筆記 (25)-整合學習文章目錄

1. Boosting - AdaBoosting
2. Bagging與隨機森林

2.1 Bagging - 並行式整合學習
2.2 隨機森林

3. 結合策略從零開始 - Machine Learning 學習筆記 (24)-貝葉斯分類器首先還是先取出周志華先生在《機器學習》貝葉斯分類器一章中對於貝葉斯決策論的定義：

貝葉斯決策論是概率框架下實施決策的基本方法。在分類任務中，在所有相關概率都已知的情況下，貝葉斯決策論考慮的是如何基於這些概率和誤判損失來選擇最優的標記。

基於最小化條件風險，我從零開始 - Machine Learning 學習筆記 (26)-聚類文章目錄

0. 前言
1. 聚類的效能度量和距離計算

1.1 效能度量
1.2 距離計算

2. 原型聚類

2.1 K-means
2.2 學從零開始 - Machine Learning 學習筆記 (30)-概率圖模型文章目錄

1. 隱馬爾可夫模型(Hidden Markov Model,HMM)
2. 馬爾科夫隨機場(Markov Random Field, MRF)
3. 條件隨機場(Conditional Random Field, 從零開始 - Machine Learning 學習筆記 (29)-半監督學習文章目錄

1. 生成式方法
2. 半監督SVM(Semi-Supervised Support Vector Machine, S3VM)
3. 圖半監督學習

3.1 針對於二分類問題的標記傳播從零開始 - Machine Learning 學習筆記 (27)-降維與度量學習文章目錄

1. k近鄰學習 - (k-Nearest Neighbor, KNN)
2. 低維嵌入
3. 主成分分析(Principal Component Analysis, PCA)
4. 核化線性降維 - K 從零開始 - Machine Learning 學習筆記 (19)-One-hot與啞變數的區別與聯絡 One-hot與啞變數的區別與聯絡
1. One-hot編碼
獨熱編碼直觀來說就是有多少個狀態就有多少個bit，且只有一個bit是1，其餘全是0的一種編碼方式。舉個例子就是一個氣球有四種顏色紅色R，紫色P，藍色B和黃色Y，我們使用One-hot進行編碼就可以從零開始 - Machine Learning 學習筆記 (23) 0. 前言
最近的計劃是先將周志華先生的《機器學習》整體先過一遍，對於其中的經典演算法中的一些公式進行推導和理解，並整理成筆記。關於課後習題部分先暫時放一放，留待下個月研究《Machine Learning in Action》的時候，在完成課後習題中關於從零開始 - Machine Learning 學習筆記 (32)-強化學習文章目錄

1. K-搖臂賭博機

1.1 探索與利用
1.2 $\epsilon$ -貪心
1.3 Softmax

2. 有模型學習

2.1 策略評估從零開始 - Machine Learning 學習筆記 (1)-機器學習概述機器學習，顧名思義就是機器像人一樣進行“學習”，是近兩年來最為人津津樂道的名詞之一，這一名稱的由來卻鮮為人所提起。在最近閱讀周志華先生的《機器學習》一書之中，在其第一章的小故事中得到這一名詞的由來。

1952年，阿瑟·薩繆爾在IBM公司研製了一從零開始 - Machine Learning 學習筆記 (28)-特徵選擇與稀疏學習特徵選擇的目的主要有兩個：首先，我們在現實任務中經常會遇到維數災難問題，這是由於屬性過多而造成的，若能從中選擇出重要的特徵，使得後續學習過程僅需在-部分特徵上構建模型，則維數災難問題會大為減輕。這與降維的目的類似。第一個原因是，去除不相關特徵往往會降低學習任從零開始 - Machine Learning 學習筆記 (8)-指數平滑及python實現 1. 指數平滑的定義及應用場景

指數平滑由布朗提出、他認為時間序列的態勢具有穩定性或規則性，所以時間序列可被合理地順勢推延；他認為最近的過去態勢，在某種程度上會持續的未來，所以將較大的權數放在最近的資料。指數平滑法是移動平均法中的一種，其特點在於給過去 netty04（重點來了、指定某個客戶端發信息或者群發）小聲嘀咕~~我也是從零開始學得、、、想學習 netty的又不知道怎麼下手的童鞋們~~ 還是和上幾篇一樣，先給出前面筆記的連線，有沒看的可以去看看再來！
netty01 、 netty02 、netty03
看到這裡、你基本上可以使用netty接受資訊和根據對應的資訊返回資訊了

&nb 從零開始寫javaweb框架筆記 9-細節完善與程式碼優化-完善控制器層在這一小節中，我們開始寫jsp頁面
開啟/WEB-INF/view/customer.jsp檔案，完成如下程式碼：
<%--
Created by IntelliJ IDEA.
User: jack
Date: 2015/12/5
Time: 從零開始 Tensorflow == 資深小白配置深度學習環境的血淚史 2018.2.6 再更
在另一臺電腦上裝了一遍TF1.5.0，其實並不複雜，下載速度快的話1個小時就可以搞定，而且從頭到尾也並沒有之前出現過的任何問題，所以啊，歸根結底，還是版本的問題
吃一塹長一智。下次謹記，不要網上亂翻教程，因為隨著版本更新都是有時限性的，最靠譜的還是官《從零開始學架構》筆記 ——第一部分：概念和基礎第一章架構基礎
模組與元件
模組：從邏輯角度拆分，主要目的是職責分離
元件：從物理角度拆分，主要目的是單元複用
框架與架構
框架：元件規範（開發規範），提供基礎功能的產品。
架構：對軟體系統結構的描述
架構設計的目的是什麼？
軟體架構的歷史

第一次軟體危機——結構化程式設計登場

2000名程式設計師歷時學習筆記：規則學習（待完善）這篇筆記，主要是機器學習第15章的學習筆記。涉及很多概念，後面複習時，來補全文章，主要是概念結構。

規則學習：是從訓練資料中學習出一組能用於對未見示列進行判別的規則。

@@1. 規則頭 ===> 規則體

@@2.規則集合，衝突，衝突消解

解決衝突的策略：投票《從零開始學Swift》學習筆記（Day67）——Cocoa Touch設計模式及應用之MVC模式 table control sdn rate term targe rac uitabbar bsp
原創文章，歡迎轉載。轉載請註明：關東升的博客 MVC（Model-View-Controller，模型-視圖-控制器）模式是相當古老的設計模式之中的一個，它最早出如今《從零開始學Swift》學習筆記（Day60）——Core Foundation框架類型轉換字符 sso grid blog spa www water 轉載
創文章，歡迎轉載。轉載請註明：關東升的博客 Core Foundation框架是蘋果公司提供一套概念來源於Foundation框架，編程接口面向C語言風格的API。盡管在Swift中調用這樣搜尋基礎教學 Mysql入門 Sql入門 Android入門 Docker入門 Go語言入門 Ruby程式入門 Python入門 Python進階 Django入門 Python爬蟲入門最近訪問首頁前端設計程式設計免費資源實用技巧資料庫資訊字典 Copyright © 2002-2020 程式人生 796T.COM All rights reserved..footer{padding-bottom: 20px;}hljs.initHighlightingOnLoad();$

從零開始-Machine Learning學習筆記(31)-規則學習

文章目錄

1. 基本概念

2. 序貫覆蓋

3. 剪枝優化

3.1 預剪枝-CN2演算法

3.2 後剪枝-RIPPER演算法

4. 一階規則學習

5. 歸納邏輯程式設計(ILP)

5.1 最小一般泛化

從零開始-Machine Learning學習筆記(31)-規則學習

從零開始-Machine Learning學習筆記(25)-整合學習

從零開始-Machine Learning學習筆記(24)-貝葉斯分類器

從零開始-Machine Learning學習筆記(26)-聚類

從零開始-Machine Learning學習筆記(30)-概率圖模型

從零開始-Machine Learning學習筆記(29)-半監督學習

從零開始-Machine Learning學習筆記(27)-降維與度量學習

從零開始-Machine Learning學習筆記(19)-One-hot與啞變數的區別與聯絡

從零開始-Machine Learning學習筆記(23)

從零開始-Machine Learning學習筆記(32)-強化學習

從零開始-Machine Learning學習筆記(1)-機器學習概述

從零開始-Machine Learning學習筆記(28)-特徵選擇與稀疏學習

從零開始-Machine Learning學習筆記(8)-指數平滑及python實現

netty04（重點來了、指定某個客戶端發信息或者群發）小聲嘀咕我也是從零開始學得、、、想學習netty的又不知道怎麼下手的童鞋們

從零開始寫javaweb框架筆記9-細節完善與程式碼優化-完善控制器層

從零開始Tensorflow == 資深小白配置深度學習環境的血淚史

《從零開始學架構》筆記——第一部分：概念和基礎

學習筆記：規則學習（待完善）

《從零開始學Swift》學習筆記（Day67）——Cocoa Touch設計模式及應用之MVC模式

《從零開始學Swift》學習筆記（Day60）——Core Foundation框架