機器學習(建模過程)簡概
資料集
資料來源:
- 公開資料
- 企業資料
- 爬取資料
預分析
- 問題定義
- 可行性分析
- 模型預選擇
特徵工程
(特徵工程決定了模型的上限,對模型優化只是逼近這個上限)
資料預處理:
- 缺失值處理
- 異常處理
- 資料歸一化
- 探索性分析
- 相似性度量
特徵選擇:
- Fiter
- Wrapper
- Embedded
優化:
- 降維:PCA/LDA
- 特徵融合
模型選擇
有監督學習:
- 迴歸:線性迴歸、Logistic迴歸
- 分類:決策樹、貝葉斯分類、SVM、KNN
無監督學習:
- 聚類:K-means、DBSCAN
強化學習:
- …
模型分類:
- 生成模型:根據特徵得出屬於某一類的概率
- 判別模型:根據特徵直接判定屬於哪一類
模型訓練
- 訓練集
- 驗證集
驗證方法:交叉驗證
評估和優化
評估方法:
- 最小二乘法
- 交叉熵
問題及優化:
- 過擬合:正規化、減少特徵、替換模型
- 欠擬合
模型應用
- 模型泛化
- 遷移學習
相關推薦
機器學習(建模過程)簡概
資料集 資料來源: 公開資料 企業資料 爬取資料 預分析 問題定義 可行性分析 模型預選擇 特徵工程 (特徵工程決定了模型的上限,對模型優化只是逼近這個上限) 資料預處理: 缺失值處理 異常處理 資料歸一化 探索性分析 相似性度量 特徵選擇: Fi
機器學習(西瓜書)模型評估與選擇
str 驗證 選擇 復雜 集合 數據集 枚舉 重新 模型 1、評估標準 1)經驗誤差 :訓練集上產生的誤差 2)泛化誤差:對新樣本進行預測產生的誤差 3)過擬合:經驗誤差很小甚至為零,泛化誤差很大(模型訓練的很復雜,幾乎涵蓋了訓練集中所有的樣本點) 4)欠擬
機器學習(1-1) 監督學習
收集 是否 分開 希望 專業 思想 技術分享 多個 無限 監督學習 在本視頻中,我將介紹一種也許是最常見的機器學習問題。即監督學習。後面將給出監督學習更正式的定義,現在最好以示例來說明什麽是監督學習。之後再給出正式的定義。 假設你想預測房價(無比需要啊!),之前,某學生已經
機器學習(Machine Learning)大家與資源
內容挺多的,轉過來吧 =======================國外==================== Machine Learning 大家(1):M. I. Jordan (http://www.cs.berkeley.edu/~jordan/) &nbs
吳恩達機器學習(十六)機器學習流水線、上限分析
目錄 0. 前言 1. 流水線 2. 上限分析(Ceiling analysis) 學習完吳恩達老師機器學習課程的照片OCR,簡單的做個筆記。文中部分描述屬於個人消化後的理解,僅供參考。 如果這篇文章對你有一點小小的幫助,請給個關注
吳恩達機器學習(第一章)
機器學習可以分為監督學習和無監督學習兩大類。 一、監督學習 監督學習就是在資料中有特定標註,會對資料進行分類,比如癌症例子。監督學習得到的結果可以預測某個新資料對應的結果(線性迴歸)或是該資料屬於哪一類(邏輯迴歸)。比如癌症的預測,房價的預測等。 圈和叉就分別標識兩類資料,即在學習
機器學習 (十六)電商O2O優惠券使用預測-2
介紹 這篇文章是想繼續總結一遍優惠券預測,寫寫感受並進行一個記錄總結,零零散散以作為記錄整理之用。 本篇是選了三點本人覺得專案中重要的寫了一下,其它內容暫時略過 第一部分:資料清洗資料分析程式碼
機器學習 (十七)kaggle競賽之泰坦尼克號專案實戰-2
導航 想寫這篇部落格的由衷是做完幾個專案,有時對於圖的畫法和模型融合演算法原理理解還很膚淺,特此加深一下印象。 內容概覽 圖 pandas、matplotlib、seaborn 餅圖 直方圖
機器學習 (十五) 關聯分析之Apriori演算法
前言 目前隨著資料量迅速增多,從海量資料中尋找有價值的資訊帶來的成本也在不斷增加,傳統的搜尋資料方式已經不能滿足我們的需要,我們先來通過一個演算法看一下演算法時間複雜度快慢帶來的影響,通過計算耗時我們會有個感性
機器學習 (十四)輕鬆理解模型評價指標
篇首語 相信大家都知道下面的圖片是啥意思,每個無論在啥公司、無論哪個行業都有自己的KPI評價指標,公司會根據公司情況設定公司戰略KPI、部門KPI、以及每個人的指標,對於員工也是比較關心自己的KPI因為關係著你
機器學習 (十二)讓你輕鬆理解K-means 聚類演算法
前言 你還記得菜市場賣菜的嗎?書店賣書的或者是平時去超市買東西時的物品,它們是不是都根據相似性擺放在一起了呢,飲料、啤酒、零食分佈在各自區域,像這樣各級事物的相似特點或特性組織在一起的方法,在機器學習裡面即成為
機器學習 (十一) SVM-支援向量機
春夜喜雨 好雨知時節,當春乃發生。 隨風潛入夜,潤物細無聲。 野徑雲俱黑,江船火獨明。 曉看紅溼處,花重錦官城。 前言 週末很多城市下開了雨,下雨中也不乏忙忙碌碌的人們,有的天不亮已經忙碌匆
機器學習(評估方法)
2.留出法:將資料集D劃分為兩個互斥的集合,其中一個集合作為訓練集S,另一個作為測試集T,隨機劃分,重複實驗產生多個訓練/測試集,取實驗平均值。(注:通常,會將D中大約2/3−4/5的樣本作為訓練集,其餘的作為測試集,不然,可能會導致評估結果不夠準確穩定。) 3.交叉驗證法
機器學習(線性代數)筆記
機器學習中的“向量”是指的只有一列的“矩陣”,這個矩陣有多少行就稱其為有多少維度 矩陣的加(減)法:兩個矩陣必須維度相同(行數列數相同)才可以加減,對應的元素相加減 矩陣的乘(除)法: 1、標量與矩陣的乘(除)法:標量與矩陣中的每個元素進行相乘(
機器學習與深度學習系列連載: 第一部分 機器學習(十一)決策樹2(Decision Tree)
決策樹2 決策樹很容易出現過擬合問題,針對過擬合問題,我們採用以下幾種方法 劃分選擇 vs 剪枝 剪枝 (pruning) 是決策樹對付“過擬合”的 主要手段! 基本策略: 預剪枝 (pre-pruning): 提前終止某些分支的生長 後剪枝 (post-pr
機器學習與深度學習系列連載: 第一部分 機器學習(十四)非監督度學習-1 Unsupervised Learning-1
非監督度學習-1 Unsupervised Learning-1(K-means,HAC,PCA) 非監督學習方法主要分為兩大類 Dimension Reduction (化繁為簡) Generation (無中生有) 目前我們僅專注化繁為簡,降維的方法,
機器學習與深度學習系列連載: 第一部分 機器學習(十五)非監督度學習-2 Unsupervised Learning-2(Neighbor Embedding)
臨近編碼 Neighbor Embedding 在非監督學習降維演算法中,高緯度的資料,在他附近的資料我們可以看做是低緯度的,例如地球是三維度的,但是地圖可以是二維的。 那我們就開始上演算法 1. Locally Linear Embedding (LLE) 我
機器學習與深度學習系列連載: 第一部分 機器學習(十七)非監督度學習-2 Unsupervised Learning-4(Generative Models)
生成模型 Generative Models 用非監督學習生成結構化資料,是非監督模型的一個重要分支,本節重點介紹三個演算法: Pixel RNN ,VAE 和GAN(以後會重點講解原理) 1. Pixel RNN RNN目前還沒有介紹,,以後會重點講解,大家
吳恩達機器學習(十一)K-means(無監督學習、聚類演算法)
目錄 0. 前言 學習完吳恩達老師機器學習課程的無監督學習,簡單的做個筆記。文中部分描述屬於個人消化後的理解,僅供參考。 如果這篇文章對你有一點小小的幫助,請給個關注喔~我會非常開心
吳恩達機器學習(十二)主成分分析(降維、PCA)
目錄 0. 前言 學習完吳恩達老師機器學習課程的降維,簡單的做個筆記。文中部分描述屬於個人消化後的理解,僅供參考。 如果這篇文章對你有一點小小的幫助,請給個關注喔~我會非常開心的~ 0. 前言 資料的特徵數量,又稱作向量的維度。降維(dimens