1. 程式人生 > >Relief 特徵選擇演算法簡單介紹

Relief 特徵選擇演算法簡單介紹

  Relief(Relevant Features)是著名的過濾式特徵選擇方法,Relief 為一系列演算法,它包括最早提出的 Relief 以及後來拓展的 Relief-F 和 RRelief-F ,其中最早提出的 Relief 針對的是二分類問題,RRelief-F 演算法可以解決多分類問題,RRelief-F 演算法針對的是目標屬性為連續值的迴歸問題。
  

1、原始的 Relief 演算法

  最早提出的 Relief 演算法主要針對二分類問題,該方法設計了一個“相關統計量”來度量特徵的重要性,該統計量是一個向量,向量的每個分量是對其中一個初始特徵的評價值,特徵子集的重要性就是子集中每個特徵所對應的相關統計量之和,因此可以看出,這個“相關統計量”也可以視為是每個特徵的“權值”。可以指定一個閾值 τ

,只需選擇比 τ 大的相關統計量對應的特徵值,也可以指定想要選擇的特徵個數 k,然後選擇相關統計量分量最大的 k 個特徵。
  有了 Relief 的基本思想,那麼現在的問題就轉換成如何得到一種有效的權值或者相關統計量類對特徵進行度量,Relief 借用了“假設間隔”(hypothesismargin)的思想,我們知道在分類問題中,常常會採用決策面的思想來進行分類,“假設間隔”就是指在保持樣本分類不變的情況下,決策面能夠移動的最大距離,可以表示為:

θ=12(xM(x)xH(x))(1)
  其中,M(x)H(x) 指的是與 x 同類的和與 x 非同類的最近鄰點。

  我們知道,當一個屬性對分類有利時,則該同類樣本在該屬性上的距離較近,而異類樣本在該屬性上的距離較遠,因此,若將假設間隔推廣到對屬性的評價中,則對應於公式(1)圓括號中的第一項越小,第二項越大,則該屬性對分類越有利。“假設間隔”能對各維度上的特徵的分類能力進行評價,從而就可以近似地估計出對分類最有用的特徵子集,Relief 正是利用了這個特性。
  
  假設訓練集 D

(x1,y1),(x2,y2),,(xm,ym),對每個樣本 xi,計算與 xi 同類別的最近鄰 xi,nh,稱為是“猜中近鄰”(nearheat),然後計算與 xi 非同類別的最近鄰 xi,nm,稱為是“猜錯近鄰”(nearmiss),則屬性 j 對應的相關統計量為:

δj=idiff(xji,xji,nh)2+diff(xji,xji,nm)2(2)
  其中,xja 代表樣本 xa 在屬性 j 上的取值,diff(xja,xjb) 的計算取決於屬性 j 的型別:
  對離散型屬性:
diff(xja,xjb)={0,1,xja=xjbotherwise
  對連續型屬性:
d
iff(xja,xjb)=|xjaxjb|

  注:xjaxjb已經規範化到 [0,1] 區間。
  
  從公式(2)中可以看出,若 xi 與其猜中近鄰 xi,nh 在屬性 j 上的距離小於 xi 與其非同類別的最近鄰 x

相關推薦

Relief 特徵選擇演算法簡單介紹

  Relief(Relevant Features)是著名的過濾式特徵選擇方法,Relief 為一系列演算法,它包括最早提出的 Relief 以及後來拓展的 Relief-F 和 RRelief-F ,其中最早提出的 Relief 針對的是二分類問題,RR

LVW(Las Vegas Wrapper)特徵選擇演算法簡單介紹

  LVW(Las Vegas Wrapper)是一種典型的包裹式特徵選擇方法,它在拉斯維加斯方法框架下使用隨機策略來進行子集搜尋,並以最終分類器的誤差為特徵子集評價準則。 1、拉斯維加斯方法概述   LVW 基於拉斯維加斯方法的框架,拉斯維加斯方法是

特徵選擇演算法--Relief與ReliefK

本文轉載自:https://blog.csdn.net/ferrarild/article/details/18792613 1:Reiief Relief演算法最早由Kira提出,最初侷限於兩類資料的分類問題。Relief演算法是一種特徵權重演算法(Feature weighting

特徵選擇演算法-Relief(轉)

  資料探勘方法的提出,讓人們有能力最終認識資料的真正價值,即蘊藏在資料中的資訊和知識。資料探勘 (DataMiriing),指的是從大型資料庫或資料倉庫中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用資訊,資料探勘是目前國際上,資料庫和資訊決策領域的最前沿研究方向之一。因此分享一下很久以前做的

常用的特徵選擇演算法介紹

特徵選擇(排序)對於資料科學家、機器學習從業者來說非常重要。好的特徵選擇能夠提升模型的效能,更能幫助我們理解資料的特點、底層結構,這對進一步改善模型、演算法都有著重要作用。特徵選擇主要有兩個功能:減少特徵數量、降維,使模型泛化能力更強,減少過擬合增強對特徵和特徵值之間的理解拿到資料集,一個特徵選擇方法,往往很

特徵選擇(2):mRMR特徵選擇演算法(matlab程式碼實現)

mRMR是什麼 是基於最大相關最小冗餘的特徵選擇方法。 要點:1.相關是特徵列與類標的相關性,也可以值特徵之間的相關性,通常來說,特徵與類標相關性越高,說明這個特徵越重要。則選擇這個特徵,這就是最大相關。 2.最小冗餘:特徵選擇的目的就是減少分類器的負擔,減少不需要的特徵。而兩個特徵之間

基於互資訊的特徵選擇演算法MATLAB實現

在概率論和資訊理論中,兩個隨機變數的互資訊(Mutual Information,簡稱MI)或轉移資訊(transinformation)是變數間相互依賴性的量度。不同於相關係數,互資訊並不侷限於實值隨機變數,它更加一般且決定著聯合分佈 p(X,Y) 和分解的邊緣分佈的乘積 p(X)p(

基於模因框架的包裝過濾特徵選擇演算法

#引用 ##LaTex @ARTICLE{4067093, author={Z. Zhu and Y. S. Ong and M. Dash}, journal={IEEE Transactions on Systems, Man, and Cybernetic

特徵選擇演算法在微博業務應用中的演進歷程

近年來,人工智慧與機器學習的應用越來越廣泛,尤其是在網際網路領域。在微博,機器學習被廣泛地應用於微博的各個業務,如Feed流、熱門微博、訊息推送、反垃圾、內容推薦等。 值得注意的是,深度學習作為人工智慧和機器學習的分支,尤其得到更多的重視與應用。深度學習與眾不

特徵選擇演算法總結

1 綜述 (1) 什麼是特徵選擇 特徵選擇 ( Feature Selection )也稱特徵子集選擇( Feature Subset Selection , FSS ) ,或屬性選擇( Attribute Selection ) ,是指從全部特徵中選取一個特徵子集,使構

SparkML中三種特徵選擇演算法(VectorSlicer/RFormula/ChiSqSelector)

        在SparkML中關於特徵的演算法可分為Extractors(特徵提取)、Transformers(特徵轉換)、Selectors(特徵選擇)三部分:         上一章理解了基於SparkML的文字特徵提取(Feature Extractors)

神經網路之感知器演算法簡單介紹和MATLAB簡單實現

Perceptron Learning Algorithm 感知機學習演算法,在1943年被生物學家MeCulloch和數學家Pitts提出以後,面臨一個問題:引數需要依靠人工經驗選定,十分麻煩。因此人們希望找到一種能夠自己選定引數的方法。1957年,Fran

特徵提取演算法簡單學習筆記

特徵提取:利用已有的特徵計算出一個抽象程度更高的特徵集,也指計算得到某個特徵的演算法特徵選擇:嘗試從初始的特徵集T中選擇對文字描述效果最好的特徵子集T’(重點是“選擇”)我的理解:特徵提取:需要進行特徵變換,改變向量空間特徵選擇:選擇,保留原始特徵意義------------

mRMR特徵選擇演算法(feature_selection)的使用

源程式下載地址,本機電腦安裝java環境,具體環境安裝可自行百度,google. 用以實現用 mRMR 從特徵集中提取特徵的程式(python) #inport neccesary bags import csv#用來儲存csv檔案 import pa

[轉載]Scikit-learn介紹幾種常用的特徵選擇方法

#### [轉載]原文地址:http://dataunion.org/14072.html 特徵選擇(排序)對於資料科學家、機器學習從業者來說非常重要。好的特徵選擇能夠提升模型的效能,更能幫助我們理解資料的特點、底層結構,這對進一步改善模型、演算法都有著重要作用。 特徵選擇主要有兩個功能: 減少特

特徵選擇——Matrix Projection演算法研究與實現

內容提要 引言 MP特徵選擇思想 MP特徵選擇演算法 MP特徵選擇分析 實驗結果 分析總結 引言   一般選擇文字的片語作為分類器輸入向量的特徵語義單元,而作為單詞或詞語的片語,在任何一種語言中都有數萬或數十萬個。另外

K-means聚類演算法原理簡單介紹

K-means演算法 (1. 剛開始隨機選擇兩個點作為簇重心,然後計算每個資料點離這個重心的距離並把這些點歸為兩個類) (上一步的結果如下圖,所有離藍色叉近的點被標為藍色了,紅色亦然)

CSS選擇器和其優先順序的簡單介紹

CSS的簡單語法: ​ 在一個style標籤中,去編寫CSS內容,最好將style標籤寫在這個head標籤中 <style> 選擇器{   屬性名稱:屬性的值;   屬性名稱2: 屬性的值2; } </style> CSS選

特徵選擇mRMR演算法程式碼實現及安裝下載

演算法程式碼實現連線可以直接下載解壓執行,在mac或者Linux系統下:https://github.com/csuldw/MachineLearning/tree/master/mRMR    要看懂result.out檔案結果中,有兩個關鍵字:*** MaxRel fea

資料結構與演算法-簡單選擇排序

概要 選擇排序法初步思想 基本概念 java程式碼實現 圖示執行過程 時間複雜度分析 選擇排序法初步思想 愛炒股票斷線的人,總是喜歡不斷的買進賣出,想通過價