機器學習筆記（二）——分類器之優缺點分析

阿新 • • 發佈：2019-01-01

原始資料中存在著大量不完整、不一致、有異常的資料，須進行資料清洗。資料清洗主要是刪除原始資料集中的無關資料、重複資料，平滑噪聲資料，篩選掉與挖掘主題無關的資料，處理缺失值、異常值。

一、線性分類器：

f=w^T+b / logistic regression

學習方法：精確代數計算 / 隨機梯度下降

特點：

1、最基本、最常用，形式簡單，易於建模；w直觀表示了各屬性重要性，輸出概率，具有很好的可解釋性；

2、抗噪聲干擾能力強，可使用正則化防止過擬合；

3、受限於特徵與目標的線性假設，必須線性可分；

4、容易欠擬合，分類精度可能較差。

二、支援向量機：（概念：支援向量，間隔，核函式，鬆弛變數）

根據樣本的分佈，搜尋所有可能的線性分類器中最佳的一個（類別間隔最大）（只懲罰支援向量，不同線性分類考慮所有樣本）

1、能夠在海量甚至高位資料中，篩選對預測任務最有效的少數訓練樣本；

2、泛化能力較線性分類器較強，可用於非線性分類，結果易解釋；

3、訓練代價大，引數調節和核函式的選擇都會影響最後效果；

三、樸素貝葉斯（後驗概率）

根據先驗概率和條件概率，計算後驗概率，選擇最大後驗概率類作為最終分類（最小錯誤率）

1、再強假設下成立：給定目標值時屬性之間相互條件獨立，使計算引數減少，節約內耗和時間；演算法簡單,快速；

2、需要先驗概率，分類決策存在錯誤率；獨立性假設不一定都滿足（先聚類）

四、決策樹（資訊增益）

學習最優劃分屬性

1、決策樹卻能夠處理不均一的資料，無需對資料進行標準化量化；

2、邏輯性直觀，具有清晰可解釋性；

3、往往只能達到區域性最優結果，因含有隨機錯誤或噪聲，容易過擬合（原則：優先選擇擬合數據的最簡單假設 1、提早停止樹增長（設定樹高限制，設定節點最小樣本數限制）2、後修剪法（錯誤率降低修剪（減節點用最大分類屬性替代），規則後修剪（減規則前件））以最大提高決策精度）

機器學習筆記（二）——分類器之優缺點分析

原始資料中存在著大量不完整、不一致、有異常的資料，須進行資料清洗。資料清洗主要是刪除原始資料集中的無關資料、重複資料，平滑噪聲資料，篩選掉與挖掘主題無關的資料，處理缺失值、異常值。一、線性分類器： f=w^T+b / logistic regression 學習方

模式識別與機器學習筆記（二）機器學習的基礎理論

機器學習是一門對數學有很高要求的學科，在正式開始學習之前，我們需要掌握一定的數學理論，主要包括概率論、決策論、資訊理論。一、極大似然估計（Maximam Likelihood Estimation，MLE ）在瞭解極大似然估計之前，我們首先要明確什麼是似然函式（likelihoo

機器學習筆記（二）線性迴歸實現

一、向量化對於大量的求和運算，向量化思想往往能提高計算效率（利用線性代數運算庫），無論我們在使用MATLAB、Java等任何高階語言來編寫程式碼。運算思想及程式碼對比的同步更新過程向量化向量化後的式子表示成為：其中是一個向量，是一個實數，是一個向量，

機器學習筆記（二）：python 模組pandas

1.讀csv檔案資料 import pandas as pd Info = pd.read_csv('titanic_train.csv'); #print(type(Info)) #Info的型別 <class 'pandas.core.frame

機器學習筆記（二）：線性模型

線性模型是機器學習常用的眾多模型中最簡單的模型，但卻蘊含著機器學習中一些重要的基本思想。許多功能更為強大的非線性模型可線上性模型的基礎上通過引入層級結構或高維對映得到，因此瞭解線性模型對學習其他機器學習模型具有重要意義。本文主要介紹機器學習中常用的線性模型，內

機器學習筆記（二）吳恩達課程視訊

多元變數線性迴歸 1.多維特徵： 2.多元梯度下降：代價函式：（目標與單變數一致，要找出使代價函式最小的一系列引數）梯度下降演算法：梯度下降演算法——特徵縮放：除了固定以外，的值都要變成[-1,1]範圍左右之間的取值，不僅僅

機器學習筆記（二）

總結自《機器學習》周志華模型評估與選擇錯誤率=樣本總數/分類錯誤的樣本數精度=1-錯誤率誤差：實際預測輸出與樣本真實輸出之間的差異訓練誤差：學習器在訓練集上的誤差泛化誤差：學習器在新樣本上的誤差過擬合：學習能力過於強大，將訓練樣本本身的一些不太一

機器學習筆記（二）矩估計，極大似然估計

1.引數估計：矩估計樣本統計量設X1,X2…Xn…為一組樣本，則 - 樣本均值 : X¯¯¯=1n∑i=1nXi - 樣本方差：S2=1n−1∑i=1n(Xi−X¯¯¯

機器學習筆記（二）L1，L2正則化

2.正則化 2.1 什麼是正則化？ (截自李航《統計學習方法》) 常用的正則項有L1，L2等，這裡只介紹這兩種。 2.2 L1正則項 L1正則，又稱lasso，其公式為： L1=α∑kj=1|θj| 特點：約束θj的大小，並且可以產

斯坦福Andrew Ng---機器學習筆記（二）：Logistic Regression(邏輯迴歸)

內容提要這篇部落格的主要內容有： - 介紹欠擬合和過擬合的概念 - 從概率的角度解釋上一篇部落格中評價函式J(θ)” role=”presentation” style=”position: relative;”>J(θ)J(θ)為什麼用最

JQuery學習筆記（二）——選擇器

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> <html> <head> <meta http-equiv="Content-

吳恩達機器學習筆記（二）（附程式設計作業連結）

吳恩達機器學習筆記（二）標籤：機器學習一.邏輯迴歸（logistic regression） 1.邏輯函式&&S型函式(logistic function and sigmoid function) 線性迴歸的假設表示

機器學習筆記（二）——廣泛應用於資料降維的PCA演算法實戰

最近在學習的過程當中，經常遇到PCA降維，於是就學習了PCA降維的原理，並用網上下載的iris.txt資料集進行PCA降維的實踐。為了方便以後翻閱，特此記錄下來。本文首先將介紹PCA降維的原理，然後進入實戰，編寫程式對iris.資料集進行降維。一、為什麼要進行資料降維？

機器學習筆記（二）——多變數最小二乘法

在上一節中，我們介紹了最簡單的學習演算法——最小二乘法去預測奧運會男子100米時間。但是可以發現，它的自變數只有一個：年份。通常，我們所面對的資料集往往不是單個特徵，而是有成千上萬個特徵組成。那麼我們就引入特徵的向量來表示，這裡涉及到矩陣的乘法，向量，矩陣求導等

機器學習筆記（二）矩陣和線性代數例：用Python實現SVD分解進行圖片壓縮

線性代數基本只要是理工科，都是必修的一門課。當時學習的時候總是有一個疑惑，這個東西到底是幹嘛用的？為什麼數學家發明出這麼一套方法呢，感覺除了解方程沒發現有什麼大用啊！但隨著學習的深入，慢慢發現矩陣的應

Andrew Ng 機器學習筆記（二）

監督學習的應用：梯度下降梯度下降演算法思想：先選取一個初始點，他可能是0向量，也可能是個隨機點。在這裡選擇圖中這個+點吧。然後請想象一下：如果把這個三點陣圖當成一個小山公園，而你整站在這個+

python爬蟲學習筆記（二）——基礎篇之爬蟲基本原理

包括 for .py 非關系型原理 sof 301跳轉 close bsp 1.什麽是爬蟲？　　請求網站並提取數據的自動化程序 2.爬蟲基本流程　2.1發起請求　　通過HTTP庫向目標站點發起請求，即發起一個Request，請求可以包含額外的headers等信息，等

機器學習筆記（六）：KNN分類器

1 KNN演算法 1.1 KNN演算法簡介 KNN（K-Nearest Neighbor）工作原理：存在一個樣本資料集合，也稱為訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類對應的關係。輸入沒有標籤的資料後，將新資料中的每個特徵與樣本集中資料對應的特

機器學習筆記（五）：樸素貝葉斯分類器

一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 Q1：什麼是基於概率論的方

機器學習筆記（六）：貝葉斯分類器

機器學習所研究的主要內容，是關於在計算機上從資料中產生“模型”的演算法，這個產生的模型大體上可以分為“判別式模型”和“生成式模型”兩大類。其中判別式模型是給定x，通過直接對條件概率分佈P（y|x）進行建模來預測y。這種方法尋找不同類別的最優分類面，反映的是異類資料之間的差異。之前幾篇文章中介紹

機器學習筆記（二）——分類器之優缺點分析

一、線性分類器：

f=w^T+b / logistic regression

二、支援向量機：（概念：支援向量，間隔，核函式，鬆弛變數）

三、樸素貝葉斯（後驗概率）

四、決策樹（資訊增益）

相關推薦