1. 程式人生 > >一個完整機器學習專案流程總結

一個完整機器學習專案流程總結

1. 實際問題抽象成數學問題

這裡的抽象成數學問題,指的我們明確我們可以獲得什麼樣的資料,目標是一個分類還是迴歸或者是聚類的問題,如果都不是的話,如果劃歸為其中的某類問題。

2. 獲取資料

獲取資料包括獲取原始資料以及從原始資料中經過特徵工程從原始資料中提取訓練、測試資料。機器學習比賽中原始資料都是直接提供的,但是實際問題需要自己獲得原始資料。“ 資料決定機器學習結果的上限,而演算法只是儘可能的逼近這個上限”,可見資料在機器學習中的作用。總的來說資料要有具有“代表性”,對於分類問題,資料偏斜不能過於嚴重,不同類別的資料數量不要有數個數量級的差距。不僅如此還要對評估資料的量級,樣本數量、特徵數量,估算訓練模型對記憶體的消耗。如果資料量太大可以考慮減少訓練樣本、降維或者使用分散式機器學習系統。

3. 特徵工程

特徵工程包括從原始資料中特徵構建、特徵提取、特徵選擇。特徵工程做的好能發揮原始資料的最大效力,往往能夠使得演算法的效果和效能得到顯著的提升,有時能使簡單的模型的效果比複雜的模型效果好。資料探勘的大部分時間就花在特徵工程上面,是機器學習非常基礎而又必備的步驟。資料預處理、資料清洗、篩選顯著特徵、摒棄非顯著特徵等等都非常重要。

4. 訓練模型、診斷、調優

模型診斷中至關重要的是判斷過擬合、欠擬合,常見的方法是繪製學習曲線,交叉驗證。通過增加訓練的資料量、降低模型複雜度來降低過擬合的風險,提高特徵的數量和質量、增加模型複雜來防止欠擬合。診斷後的模型需要進行進一步調優,調優後的新模型需要重新診斷,這是一個反覆迭代不斷逼近的過程,需要不斷的嘗試,進而達到最優的狀態。

5. 模型驗證、誤差分析

通過測試資料,驗證模型的有效性,觀察誤差樣本,分析誤差產生的原因,往往能使得我們找到提升演算法效能的突破點。誤差分析主要是分析出誤差來源與資料、特徵、演算法。

6. 模型融合

提升演算法的準確度主要方法是模型的前端(特徵工程、清洗、預處理、取樣)和後端的模型融合。在機器學習比賽中模型融合非常常見,基本都能使得效果有一定的提升。

7. 上線執行

這一部分內容主要跟工程實現的相關性比較大。工程上是結果導向,模型在線上執行的效果直接決定模型的成敗。 不單純包括其準確程度、誤差等情況,還包括其執行的速度(時間複雜度)、資源消耗程度(空間複雜度)、穩定性是否可接受。

值得注意的是,以上流程只是一個指導性的機器學習流程經驗,並不是每個專案都包含完整的流程。

相關推薦

一個完整機器學習專案流程總結

1. 實際問題抽象成數學問題 這裡的抽象成數學問題,指的我們明確我們可以獲得什麼樣的資料,目標是一個分類還是迴歸或者是聚類的問題,如果都不是的話,如果劃歸為其中的某類問題。 2. 獲取資料 獲取資料包括獲取原始資料以及從原始資料中經過特徵工程從原始資料

BAT面試題精選 | 一個完整機器學習專案流程(視訊)

良好的資料要能夠提取出良好的特徵才能真正發揮效力。特徵預處理、資料清洗是很關鍵的步驟,往往能夠使得演算法的效果和效能得到顯著提高。歸一化、離散化、因子化、缺失值處理、去除共線性等,資料探勘過程中很多時間就花在它們上面。這些工作簡單可複製,收益穩定可預期,是機器學習的基礎必備步驟。篩選出顯著特徵、摒棄非顯著特徵

簡要說說一個完整機器學習項目的流程

pan 過擬合、欠擬合 水平 調整 結果導向 ont 後端 擬合 不能 1 抽象成數學問題 明確問題是進行機器學習的第一步。機器學習的訓練過程通常都是一件非常耗時的事情,胡亂嘗試時間成本是非常高的。這裏的抽象成數學問題,指的我們明確我們可以獲得什麽樣的數據,目標是一個分類還

機器學習專案流程清單

翻譯自 《Hands On Machine Learning with Scikit Learn and TensorFlow》的APPENDIX B: Machine Learning Project Checklist 翻譯過程根據筆者的習慣進行了文

機器學習總結之——機器學習專案完整流程

機器學習總結之——機器學習專案的完整流程 1、分析專案需求,明確具體問題   進行一個專案前,首先要做的是要分析專案各個需求,以及明確各個需求所對應的具體問題並將其抽象成一個個數學問題,將專案過程轉換成數學建模過程。   PS:這裡的抽象成數學問題

機器學習專案完整流程

機器學習專案的完整流程 1 模型抽象 對於實際生活中的複雜事物來說,如果要使用機器學習方法來解決,對實際問題進行建模,將其抽象為數學問題是首要的工作。下面舉幾個簡單例子 預測本地明天的天氣 首先你需要利用生活常識和收集資料得到的專業知識,知道可能會對天氣有影

二、《Hands-On Machine Learning with Scikit-Learn and TensorFlow》一個完整機器學習專案

  本章中,你會假裝作為被一家地產公司剛剛僱傭的資料科學家,完整地學習一個案例專案。 下面是主要步驟: 1. 專案概述。 2. 獲取資料。 3. 發現並可視化資料,發現規律。 4. 為機器學習演算法準備資料。 5. 選擇模型,進行訓練。 6. 微調模型。 7. 給出解決方案。 8. 部

關於那些羞羞的不可描述的動作分析,一個正經的機器學習專案

參加 2018 AI開發者大會,請點選 ↑↑↑ 作者 | Unknown 譯者 | czh912019784 編輯 | 查無此人 出品 | AI科技大本營 現在,機器學習已經應用在各行各業中,開發工程師隊伍越發壯大,其中有一類工程師的工作內容在外行

Python機器學習流程專案實戰精講(2018版)

Python機器學習全流程專案實戰精講(2018版)網盤地址:https://pan.baidu.com/s/16SSVq74YC07M0dW1iDekPg 提取碼: vu7r備用地址(騰訊微雲):https://share.weiyun.com/5VGzPK0 密碼:yp4ri9 課程特色:機器學習一線工

如何交付機器學習專案:一份機器學習工程開發流程指南

隨著機器學習(ML)成為每個行業的重要組成部分,對機器學習工程師(MLE)的需求急劇增長。MLE需要將機器學習技能與軟體工程專業知識相結合,為特定應用程式找到高效能的模型,並應對出現的實施挑戰——從構建訓練基礎架構到準備部署模型。在新的機器學習團隊中,遇到最常見的障礙之一是工

機器學習專案實戰流程

機器學習專案流程: 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已 問題建模——獲取資料——特徵工程——模型訓練——模型調優——線上執行 資料預處理: 資料預處理的思考流程如下: (1)讀入樣本,觀察原始資料: 樣本類別的取值集合與分佈 按

一個完整的軟體專案開發流程

《IT專案管理與職業生涯規劃大型論壇》中國.蘇州 在我轉產品之前,雖然我混跡IT行業,做過實施和售前,也跟研發打過交道,但我一直都不知道一個軟體是怎麼開發出來的。直面客戶,扛著壓力,在對程式一無所知的情況下,很容易產生一些想法:為什麼產品的結果是這樣?為什麼產品開發的

機器學習】超詳細!上線一個機器學習專案你需要哪些準備?

Canvas是用於設計和記錄機器學習系統的模板。它比簡單的文字文件具有優勢,因為Canvas用簡

一個真實資料集的完整機器學習解決方案(上)

更多精彩內容,歡迎關注公眾號:數量技術宅。想要獲取本期分享的完整策略程式碼,請加技術宅微信:sljsz01 引言 我們到底應該怎麼學會、靈活使用機器學習的方法?技術宅做過小小的調研,許多同學會選擇一本機器學習的書籍,或是一門機器學習的課程來系統性地學習。而在學完書本、課程後,並不清楚如何將這些理論、技術應

機器學習工作流程第一步:如何用Python做數據準備?

pandas 整數 情況 意思 編程練習 人工智能 簡單的 準備工作 標題 這篇的內容是一系列針對在Python中從零開始運用機器學習能力工作流的輔導第一部分,覆蓋了從小組開始的算法編程和其他相關工具。最終會成為一套手工制成的機器語言工作包。這次的內容會首先從數據準備開始。

機器學習基本概念總結(轉載)

9.png png log images es2017 enter 08-18 機器學習 style 機器學習基本概念總結(轉載)

輕松入門機器學習之概念總結(二)

消息 目的 作者 固定 erp 效率 dev 常用 度量 歡迎大家前往雲加社區,獲取更多騰訊海量技術實踐幹貨哦~ 作者:許敏 接上篇:機器學習概念總結筆記(一) 8)邏輯回歸 logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用於數據挖掘

吳恩達《機器學習》課程總結(7)正則化

額外 分享 哪些 TP 回歸 分享圖片 表現 例子 兩個 7.1過擬合的問題 訓練集表現良好,測試集表現差。魯棒性差。以下是兩個例子(一個是回歸問題,一個是分類問題) 解決辦法: (1)丟棄一些不能幫助我們正確預測的特征。可以使用工選擇保留哪些特征,或者使用一些模型選擇

吳恩達《機器學習》課程總結(15)異常檢測

是否 5.6 問題 com 結果 平移 分享 出現問題 計算過程 15.1問題的動機 將正常的樣本繪制成圖表(假設可以),如下圖所示: 當新的測試樣本同樣繪制到圖標上,如果偏離中心越遠說明越可能不正常,使用某個可能性閾值,當低於正常可能性閾值時判斷其為異常,然後做進一步的

機器學習專案的例項分析設計(附原始碼)

摘要說明: 最近在學習“Hands-On Machine Learning with Scikit-Learn &TensorFlow”,其中一些機器學習的思考和處理方式很具有專案級開發的特點。我在原文提供的例項基礎上,結合自己的分析,模擬了一個機器學習專案的分析和實現過程,包括專