1. 程式人生 > >機器學習演算法對資料的要求以及使用的情況

機器學習演算法對資料的要求以及使用的情況

1.資料量大於10萬採用隨機梯度下降,效果不錯,大大的節約時間成本 2.資料量小於1萬的可以採用kmeans聚類演算法,無效果採用特殊聚類或者GMM模型。大於1萬的採用minibatch kmeans演算法。使用kmeans聚類的前提是聚類類別數量知道。 3.聚類類別數量未知的情況下,資料量小於1萬時,採用meanshift或者VBGMM模型,大於1萬時,就咩有什麼有效的演算法 4.聚類演算法是建立在沒有標記樣本的資料,屬於無監督模型 5.知道樣本的類別標籤,小於10萬,採用線性SVM分類,沒有效果,如果是文字資料,採用樸素貝葉斯,不是採用最近鄰分類,最近鄰無效,採用SVC或者採用整合分類演算法。 6.如果資料量大於10萬,採用隨機梯度下降,沒有效果,採用核函式近似的方法,這些演算法屬於有監督學習,知道樣本類別標籤 7.樣本數量小於50,需要獲取更多的樣本,否則演算法的效果沒有用,也就是說機器學習的演算法建立的資料樣本規模要大於50 8.上面的是分類問題,下面說一下預測問題 9.預測質量,資料樣本大於10萬,採用隨機梯度下降回歸法,資料樣本小於10萬,並且只有少數特徵有效的情況下,採用Lasso,ElasticNet演算法。如果不是,採用SVR(線性核函式),嶺迴歸模型(ridge regression
),如果無效,採用SVR(非線性核函式),或者整合迴歸 10.僅僅是資料尋找,可以採用隨機PCA,沒有效果,資料量小於1萬,採用Isomap或者採用普嵌入演算法(spectral embedding),乜有效果採用LLE演算法,這下演算法用於減低維度 11.如果資料量大於1萬,採用核函式近似演算法降低維度 12如果是預測結構,就沒有什麼有效的演算法了。

相關推薦

機器學習演算法資料要求以及使用的情況

1.資料量大於10萬採用隨機梯度下降,效果不錯,大大的節約時間成本 2.資料量小於1萬的可以採用kmeans聚類演算法,無效果採用特殊聚類或者GMM模型。大於1萬的採用minibatch kmeans演算法。使用kmeans聚類的前提是聚類類別數量知道。 3.聚類類別數

機器學習演算法 之邏輯迴歸以及python實現

下面分為兩個部分: 1. 邏輯迴歸的相關原理說明 2. 通過python程式碼來實現一個梯度下降求解邏輯迴歸過程 邏輯迴歸(Logistic Regression) 首先需要說明,邏輯迴歸屬於分類演算法。分類問題和迴歸問題的區別在於,分類問題的輸出是離散

機器學習演算法】線性迴歸以及手推logistic迴歸

一,基本形式: 在樣本集D中有n個樣本,即。其中每個樣本x有d個屬性描述, x = (x1;x2;...;xd),其中xi表示的是第i個屬性上的取值,線性模型試圖學得一個通過屬性的線性組合來進行預測的函式,即: 其中w,b是要訓練的引數, w = (w1;w2;...;w

Python下的資料處理和機器學習資料線上及本地獲取、解析、預處理和訓練、預測、交叉驗證、視覺化

<!doctype html> <html> <head> <title>Example Domain</title> <meta charset="utf-8" /> <meta http-equiv=

資料分析師最常用的10個機器學習演算法

在機器學習領域,有種說法叫做“世上沒有免費的午餐”,簡而言之,它是指沒有任何一種演算法能在每個問題上都能有最好的效果,這個理論在監督學習方面體現得尤為重要。   舉個例子來說,你不能說神經網路永遠比決策樹好,反之亦然。模型執行被許多因素左右,例如資料集的大小和結構。  

資料推薦系統演算法程式碼全接觸(機器學習演算法+Spark實現)

大資料推薦系統演算法程式碼全接觸(機器學習演算法+Spark實現)課程出自學途無憂網 課程分享地址:https://pan.baidu.com/s/1piCNIxC2Sv0zMY0yWxY9Ug  提取碼:b10v     一、課程簡介: 推薦系統是利用電子商務網站向

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [7] 支援向量機(一)

這兩篇內容為西瓜書第 6 章支援向量機 6.1,6.2,6.4,6.3 的內容: 6.1 間隔與支援向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函式 由於本章內容較多,分為兩篇來敘述。本篇所包含內容為間隔與支援向量和對偶問題。 如移動端無法正常

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [8] 支援向量機(二)

這兩篇內容為西瓜書第 6 章支援向量機 6.1,6.2,6.4,6.3 的內容: 6.1 間隔與支援向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函式 由於本章內容較多,分為兩篇來敘述。本篇所包含內容為軟間隔與正則化和核函式。關於間隔與支援向量和

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [9] 決策樹

本篇內容為西瓜書第 4 章決策樹 4.1,4.2,4.3 的內容: 4.1 基本流程 4.2 劃分選擇 4.3 剪枝處理 如移動端無法正常顯示文中的公式,右上角跳至網頁即可正常閱讀。 決策樹 (decision tree) 是一種基本的分類與迴歸方法。在分類問

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [10] 決策樹實踐

本篇內容為《機器學習實戰》第 3 章決策樹部分程式清單。所用程式碼為 python3。 決策樹優點:計算複雜度不高,輸出結果易於理解,對中間值的缺失不敏感,可以處理不相關特徵資料。缺點:可能會產生過度匹配問題。適用資料型別:數值型和標稱型 在構造決策樹時,我們需要

機器學習,大資料,深度學習 競賽網站,學習網站,演算法刷題網站

資料競賽類網站 Kaggle 阿里巴巴天池大資料比賽 DataCastle CCF大資料與計算智慧大賽 DataFountain Di-Tech演算法大賽 KDD-Cup KDnuggets Competition 全國高校雲端計算應用創

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [11] 整合學習

本篇內容為西瓜書第 8 章整合學習 8.1 8.2 8.3 8.4 8.5 的內容: 8.1 個體與整合 8.2 Boosting 8.3 Bagging與隨機森林 8.4 結合策略 8.5 多樣性 如移動端無法正常顯示文中的公式,右上角跳至網頁即可正常閱讀。

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [12] 整合學習實踐

本篇內容為《機器學習實戰》第 7 章利用 AdaBoost 元演算法提高分類效能程式清單。所用程式碼為 python3。 AdaBoost優點:泛化錯誤率低,易編碼,可以應用在大部分分類器上,無引數調整。缺點:對離群點敏感。適用資料型別:數值型和標稱型資料。 bo

2018最新實用BAT機器學習演算法崗位系列面試總結(結構化資料特徵工程)

特徵工程,是對原始資料進行一系列工程處理,目的是去除原始資料中的雜質和冗餘,設計更高效的特徵來描述求解的問題與預測模型之間的關係。 特徵工程主要對以下兩種常用的資料型別做處理: (1)結構化資料。結構化資料型別可以看作關係型資料庫的一張表,每列都有清晰的定義,包

機器學習演算法的隨機資料生成

在學習機器學習演算法的過程中,我們經常需要資料來驗證演算法,除錯引數。但是找到一組十分合適某種特定演算法型別的資料樣本卻不那麼容易。還好numpy, scikit-learn都提供了隨機資料生成的功能,我們可以自己生成適合某一種模型的資料,用隨機資料來做清洗,歸一化,轉換

資料分析:機器學習演算法實現的演化

我將會對機器學習演算法的不同的實現正規化進行講解,既有來自文獻中的,也有來自開源社群裡的。首先,這裡列出了目前可用的三代機器學習工具。 傳統的機器學習和資料分析的工具,包括SAS,IBM的SPSS,Weka以及R語言。它們可以在小資料集上進行深度分析——工具所執行的節點的記憶體可以容納得

機器學習筆記之八—— knn-最簡單的機器學習演算法以及KD樹原理

上一節結束了線性迴歸、邏輯迴歸,今天一節來介紹機器學習中最簡單的演算法:    K近鄰(KNN,全稱K-nearst Neighbor)       概述:判斷一個樣本的label只需要判斷該樣本週圍其他樣本的label。簡言之,朋

機器學習&資料探勘筆記_16(常見面試之機器學習演算法思想簡單梳理)

  前言:   找工作時(IT行業),除了常見的軟體開發以外,機器學習崗位也可以當作是一個選擇,不少計算機方向的研究生都會接觸這個,如果你的研究方向是機器學習/資料探勘之類,且又對其非常感興趣的話,可以考慮考慮該崗位,畢竟在機器智慧沒達到人類水平之前,機器學習可以作為一種重要手段,而隨著科技的不斷髮展,

機器學習演算法-python實現】決策樹-Decision tree(1) 資訊熵劃分資料

1.背景          決策書演算法是一種逼近離散數值的分類演算法,思路比較簡單,而且準確率較高。國際權威的學術組織,資料探勘國際會議ICDM (the IEEE International Con

程式設計師內功修煉之演算法資料結構 為機器學習、大資料補足演算法知識

現在外面的演算法課程層出不窮,少則大幾百,多則上千,但是無論課程質量與否,關鍵還是要靠自己學習了基本的知識以後,就可以通過自身進一步昇華。課程的清晰程度和講授質量都是一流水準,備課專業,良心之作。跟完這個課程自己學到的不光是資料結構的知識,還有很多附加的老師潛移默化帶給我的其他程式設計方面的提升,思考問題