【電腦科學】【2011.05】【含原始碼】微陣列資料的SVM分類與邊緣距離分析

阿新 • • 發佈：2018-12-12

本文為美國阿克倫大學（作者：Ameer Basha Shaik Abdul）的碩士論文，共84頁。

在這裡插入圖片描述

支援向量機是一種統計分類演算法，它藉助於泛函超平面將兩類資料分開進行分類。SVM在噪聲和高維資料（如微陣列）的應用上具有良好的效能。（注：微陣列（DNA Microarray）也叫寡核苷酸陣列（Oligonucleitide array），是人類基因組計劃（Human Geneome Project，HGP）的逐步實施和分子生物學的迅猛發展及運用的產物，它是生物學家受到計算機晶片製造和廣為應用的啟迪，融微電子學、生命科學、電腦科學和光電化學為一體，在原來核酸雜交（Northern、Southern）的基礎上發展起來的一項新技術，它是第三次革命（基因組革命）中的主要技術之一，是生物晶片中的一種。該技術的原理是在固體表面上整合已知序列的基因探針，被測生物細胞或組織中大量標記的核酸序列與上述探針陣列進行雜交，通過檢測相應位置雜交探針，實現基因資訊的快速檢測。）

泛函超平面的邊緣區域稱為危險區域，它定義為兩個平行超平面之間的區域，平行超平面由兩類資料支援向量與泛函超平面之間的平均距離確定。本研究的主要目的是確定邊緣距離、危險區寬度對分類器精度的影響，並分析邊緣距離在特徵選擇中的作用。本文的研究使用了三組微陣列資料集。對於每個資料集，推導了兩類資料的泛函超平面方程，並獲得了相應的支援向量。研究了危險區寬度與分類精度之間的關係，還研究了用於構建支援向量機的特徵數量相對於邊緣距離的變化率。

研究結果表明，雖然邊緣距離與分類精度的相關性不是很強，但利用分類精度相對於邊緣距離的變化率，可以確定構造高效能支援向量機的最優特徵數。

Support vector machine is statisticalclassification algorithm that classifies data by separating two classes withthe help of a functional hyper plane. SVM is known for good performance onnoisy and high dimensional data such as microarray. A marginal region offunctional hyper plane named „danger zone‟is defined to be the regionbetween two parallel hyper planes that are determinedby the average distances of the support vectors from the two classes tofunctional hyper plane. The main aim of this study was to determine the effectof margin distance, the width of the danger zone, on the accuracy of theclassifier and to analyze the role of margin distance in feature selection. Thestudy was carried out using three microarray datasets. For each dataset,equation of functional hyper plane separating the two classes of data wasderived. The corresponding support vectors were obtained. The average distancesbetween support vectors from the two classes to functional hyper plane werecalculated. The relations between the width of the danger zone and theclassification accuracy were investigated. The rate of change of the margindistance with respect to the number of features used for constructing thesupport vector machine was also examined. The results indicate that althoughcorrelation between margin and accuracy is not very strong, but the rate ofchange of classification accuracy with respect to margin distance can beemployed to determine the optimal number of features for constructing highperformance support vector machine for classifying microarray samples.

1 引言

2 相關文獻回顧

3 研究資料與方法

4 研究結果與討論

5 結論

附錄 MATLAB原始碼

附錄A 隨機產生訓練與測試資料

附錄B 訓練與測試資料集定標

附錄C 對定標訓練資料進行T檢驗

附錄D 計算SVM分類器的邊緣距離

下載英文原文地址：

更多精彩文章請關注微訊號：在這裡插入圖片描述

【電腦科學】【2011.05】【含原始碼】微陣列資料的SVM分類與邊緣距離分析

【電腦科學】【2011.05】【含原始碼】微陣列資料的SVM分類與邊緣距離分析

【電腦科學】【2010.05】【含原始碼】機器人路徑規劃

【電腦科學】【2011】【含原始碼】多通道肌電訊號在手部運動分類中的應用

【電腦科學】【2017.05】基於深度神經網路的特徵選擇

【電腦科學】【2013】高自動化車輛的路徑規劃

【電腦科學】【2018.02】【含原始碼】一種目標分類的深度學習預測模型

【電腦科學】【2018.02】自適應運動規劃

【電腦科學】【2016】單目視訊三維人體姿態估計的深度學習模型

【電腦科學】【2016】【含部分原始碼】深度神經網路及其實現

【電腦科學】【2017.11】【含原始碼】用於超光譜影象畫素分類的深度學習研究

【電腦科學】【2005.12】神經網路在生物資料中的應用

【電腦科學】【2016.10】多目標優化的模擬退火演算法研究

【電腦科學】【2016.09】視覺識別的深度學習

【電腦科學】【2016.09】深度學習的不確定性

【雷達與對抗】【2012.05】【含原始碼】合成孔徑雷達：一種用於ESAs Wavemill任務的實時處理器

【資訊科技】【2015.05】【含原始碼】基於彩色色調影象處理的目標跟蹤

【雷達與對抗】【2000】【含原始碼】FMCW雷達測量雪層厚度的建模與模擬分析

【雷達與對抗】【2016.03】【含原始碼】雷達效能建模與評估——雷達效能對大氣輸入資料解析度的敏感性研究（北海案例研究）

【資訊科技】【2005.12】【含原始碼】基於幅度譜拉普拉斯運算元MMSE估計器的語音增強

【雷達與對抗】【2016.07】【含原始碼】比例合成孔徑雷達研究

【電腦科學】【2011.05】【含原始碼】微陣列資料的SVM分類與邊緣距離分析

相關推薦