1. 程式人生 > >【電腦科學】【2011.05】【含原始碼】微陣列資料的SVM分類與邊緣距離分析

【電腦科學】【2011.05】【含原始碼】微陣列資料的SVM分類與邊緣距離分析

本文為美國阿克倫大學(作者:Ameer Basha Shaik Abdul)的碩士論文,共84頁。

在這裡插入圖片描述

支援向量機是一種統計分類演算法,它藉助於泛函超平面將兩類資料分開進行分類。SVM在噪聲和高維資料(如微陣列)的應用上具有良好的效能。(注:微陣列(DNA Microarray)也叫寡核苷酸陣列(Oligonucleitide array),是人類基因組計劃(Human Geneome Project,HGP)的逐步實施和分子生物學的迅猛發展及運用的產物,它是生物學家受到計算機晶片製造和廣為應用的啟迪,融微電子學、生命科學、電腦科學和光電化學為一體,在原來核酸雜交(Northern、Southern)的基礎上發展起來的一項新技術,它是第三次革命(基因組革命)中的主要技術之一,是生物晶片中的一種。該技術的原理是在固體表面上整合已知序列的基因探針,被測生物細胞或組織中大量標記的核酸序列與上述探針陣列進行雜交,通過檢測相應位置雜交探針,實現基因資訊的快速檢測。)

泛函超平面的邊緣區域稱為危險區域,它定義為兩個平行超平面之間的區域,平行超平面由兩類資料支援向量與泛函超平面之間的平均距離確定。本研究的主要目的是確定邊緣距離、危險區寬度對分類器精度的影響,並分析邊緣距離在特徵選擇中的作用。本文的研究使用了三組微陣列資料集。對於每個資料集,推導了兩類資料的泛函超平面方程,並獲得了相應的支援向量。研究了危險區寬度與分類精度之間的關係,還研究了用於構建支援向量機的特徵數量相對於邊緣距離的變化率。

研究結果表明,雖然邊緣距離與分類精度的相關性不是很強,但利用分類精度相對於邊緣距離的變化率,可以確定構造高效能支援向量機的最優特徵數。

Support vector machine is statisticalclassification algorithm that classifies data by separating two classes withthe help of a functional hyper plane. SVM is known for good performance onnoisy and high dimensional data such as microarray. A marginal region offunctional hyper plane named „danger zone‟is defined to be the regionbetween two parallel hyper planes that are determinedby the average distances of the support vectors from the two classes tofunctional hyper plane. The main aim of this study was to determine the effectof margin distance, the width of the danger zone, on the accuracy of theclassifier and to analyze the role of margin distance in feature selection. Thestudy was carried out using three microarray datasets. For each dataset,equation of functional hyper plane separating the two classes of data wasderived. The corresponding support vectors were obtained. The average distancesbetween support vectors from the two classes to functional hyper plane werecalculated. The relations between the width of the danger zone and theclassification accuracy were investigated. The rate of change of the margindistance with respect to the number of features used for constructing thesupport vector machine was also examined. The results indicate that althoughcorrelation between margin and accuracy is not very strong, but the rate ofchange of classification accuracy with respect to margin distance can beemployed to determine the optimal number of features for constructing highperformance support vector machine for classifying microarray samples.

1 引言

2 相關文獻回顧

3 研究資料與方法

4 研究結果與討論

5 結論

附錄 MATLAB原始碼

附錄A 隨機產生訓練與測試資料

附錄B 訓練與測試資料集定標

附錄C 對定標訓練資料進行T檢驗

附錄D 計算SVM分類器的邊緣距離

下載英文原文地址:

更多精彩文章請關注微訊號:在這裡插入圖片描述