1. 程式人生 > >數據挖掘十大算法總結--核心思想,算法優缺點,應用領域

數據挖掘十大算法總結--核心思想,算法優缺點,應用領域

data- 文本分類 target apr 排名 ans kmean 全部 等等

------------------------------------------------------------------------------------

歡迎轉載,請附上鏈接

http://blog.csdn.net/iemyxie/article/details/40736773

------------------------------------------------------------------------------------

本文所涉算法均僅僅概述核心思想。詳細實現細節參看本博客“數據挖掘算法學習”分類下其它文章,不定期更新中。

參考了很多資料加上個人理解,對十大算法進行例如以下分類:

?分類算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM

?聚類算法:KMeans

?統計學習:EM

?關聯分析:Apriori

?鏈接挖掘:PageRank

當中,EM算法雖能夠用來聚類。可是因為EM算法進行叠代速度非常慢,比kMeans性能差非常多,而且KMeans算法 聚類效果沒有比EM差多少,所以一般用kMeans進行聚類,而不是EM。EM算法的主要作用是用來進行參數預計,故將其分入統計學習類。SVM算法在回歸分析,統計方面也有不小的貢獻,而且在分類算法中也占有一定地位。思考了下還是將SVM分入分類算法中。對分類有不同看法的讀者歡迎留言討論。

下面逐一介紹。

分類算法--C4.5 具體解說參見數據挖掘算法學習(五)C4.5算法

?核心思想:以信息增益率為衡量標準實現對數據歸納分類

?算法長處:

產生的分類規則易於理解,準確率較高

?算法缺點:在構造樹的過程中。須要對數據集進行多次的順序掃描和排序,因而導致算法的低效

?應用領域:臨床決策、生產制造、文檔分析、生物信息學、空間數據建模等

分類算法--CART 具體解說參見數據挖掘算法學習(六)CART算法

?核心思想:以基於最小距離的尼基指數預計函數為衡量標準對數據進行遞歸分類

?算法長處:抽取規則簡便且易於理解。面對存在缺失值、變量數多等問題時很穩健

?算法缺點:要求被選擇的屬性僅僅能產生兩個子節點;類別過多時,錯誤可能添加的較快

?應用領域:信息失真識別。電信業潛在客戶識別。預測貸款風險等等

分類算法--Adaboost 具體解說參見數據挖掘算法學習(八)Adaboost算法

?核心思想:針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的終於分類器(強分類器)

?算法長處:高精度,簡單無需做特征篩選。不會過度擬合

?算法缺點:訓練時間過長,運行效果依賴於弱分類器的選擇

?應用領域:廣泛應用於人臉檢測、目標識別等領域

分類算法--NaiveBayes 具體解說參見數據挖掘算法學習(三)NaiveBayes算法

?核心思想:通過某對象的先驗概率,利用貝葉斯公式計算出其後驗概率,即該對象屬於某一類的概率。選擇具有最大後驗概率的類作為該對象所屬的類

?算法長處:算法簡單,所需預計的參數非常少。對缺失數據不太敏感

?算法缺點:屬性個數比較多或者屬性之間相關性較大時。分類效率下降

?應用領域:垃圾郵件過濾,文本分類,新聞分類。Query分類,商品分類等

分類算法--KNN

?核心思想:假設一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別

?算法長處:簡單。無需預計參數,無需訓練。適合於多分類問題

?算法缺點:計算量較大。可解釋性較差,無法給出決策樹那樣的規則

?應用領域:客戶流失預測、欺詐偵測等(更適合於稀有事件的分類問題)

分類算法--SVM 具體解說參見數據挖掘算法學習(七)SVM算法

?核心思想:建立一個最優決策超平面。使得該平面兩側距離平面近期的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力

?算法長處:更好的泛化能力,解決非線性問題的同一時候避免維度災難,可找到全局最優

?算法缺點:運算效率低。計算時占用資源過大

?應用領域:遙感圖像分類,汙水處理過程執行狀態監控等

聚類算法--KMeans 具體解說參見數據挖掘算法學習(一)KMeans算法

?核心思想:輸入聚類個數k,以及包括n個數據對象的數據庫。輸出滿足方差最小標準的k個聚類

?算法長處:運算速度比KNN快

?算法缺點:聚類數目k是一個輸入參數。不合適的k值可能返回較差的結果

?應用領域:圖片切割。分析商品相似度進而歸類商品,分析公司的客戶分類以使用不同的商業策略

統計學習--EM

?核心思想:通過E步驟和M步驟使得期望最大化

?算法長處:簡單穩定

?算法缺點:叠代速度慢,次數多,easy陷入局部最優

?應用領域:參數預計。計算機視覺的數據集聚

關聯分析--Apriori

?核心思想:基於兩階段頻集思想挖掘關聯規則的算法

?算法長處:簡單、易理解、數據要求低

?算法缺點:I/O負載大,產生過多的候選項目集

?應用領域:消費市場價格分析,入侵檢測。移動通信領域

鏈接挖掘--PageRank

?核心思想:基於從很多優質的網頁鏈接過來的網頁,必然還是優質網頁的回歸關系。來判定全部網頁的重要性

?算法長處:全然獨立於查詢。僅僅依賴於網頁鏈接結構,能夠離線計算

?算法缺點:忽略了網頁搜索的時效性;舊網頁排序非常高,存在時間長,積累了大量的in-links,擁有最新資訊的新網頁排名卻非常低。由於它們差點兒沒有in-links

?應用領域:頁面排序


Update on:2014-12-10

數據挖掘十大算法總結--核心思想,算法優缺點,應用領域