1. 程式人生 > >初識機器學習-理論篇(慕課筆記)

初識機器學習-理論篇(慕課筆記)

最好 框架 要求 它的 推薦系統 利用 評估 das 離散

什麽是機器學習

定義:

利用計算機從歷史數據中找出規律,並把這些規律用到對未來不確定場景的決策。

從數據中尋找規律

尋找規律:概率學 統計學
統計學方法:抽樣 -> 統計 -> 假設檢驗
隨著計算機處理能力增強 -> 不需要采樣
數據增加 -> 維度增加 -> 無法可視化 -> 只能數學方式表示

我們進行機器學習的一個目的就是從大量的數據中歸納出一個合適的數學模型

機器學習發展的原動力

大數據概念的出現

用數據代替專家
經濟驅動,數據變現

業務系統發展的歷史

基於專家經驗(頭腦風暴。然後交給程序員寫一些判斷語句)
基於統計-分緯度統計(依靠業務報表,數據倉庫,olap統計)

機器學習-在線學習(實時的數據流,實時調整)

典型應用-關聯規則

購物籃分析:關聯規則 (一種數據挖掘算法)

聯想連接 找出規律

購買物品同時買了其他什麽物品。
紙尿布和啤酒的故事

經濟學,捆綁銷售;更大的利益

典型應用-聚類

用戶細分的典型案例,全球通精準營銷
把用戶消費的數據利用聚類算法,可以根據用戶信息,自動對用戶進行分類

典型應用-樸素貝葉斯和決策樹

樸素貝葉斯——垃圾郵件的識別
決策樹——銀行在放貸時對用戶的還款能力評估

典型應用-ctr預估和協同過濾

互聯網廣告:ctr預估(線性邏輯回歸)--用戶點擊率預估,百度搜索結果排序

推薦系統:協同過濾(類似購物車分析---關聯規則)

典型應用自然語言處理和圖像識別

自然語言處理
  情感分析:根據用戶的評論,分析出來該用戶是我們的積極用戶還是消極用戶....
  實體識別:將一篇文章中,主幹比如人名,時間,地名提取出來

深度學習
  圖片識別:給一張照片,自動識別出來,是貓啊還是兔子。

更多應用:

語音識別

智慧機器人

個性化醫療

私人虛擬助理

情感分析

手勢控制

人臉識別

視頻內容自動識別

自動駕駛

機器實時翻譯......

數據分析和機器學習的區別

數據分析:交易數據、少量數據、采樣分析。對數據一致性要求嚴格,使用關系型數據庫sql serve、mysql、oracle。

機器學習:行為數據、海量數據、全量分析。需要保證數據吞吐量,數據一致性可以打折扣,所以用NoSQL數據庫

數據分析(OLAP,聯機分析)-用戶(數據分析師)驅動,交互式分析。
機器學習-數據+算法驅動,自動進行識別。

技術分享圖片

技術分享圖片

機器學習常見算法和分類

按數據情況:Y有沒有確定
有監督學習---已知分類(標簽)---分類,回歸
無監督學習---未知分類(無標簽)---聚類
半監督學習---強化學習,隨著樣本數據量上升,分類標準清晰

按算法的本質
生成模型---給出屬於A/B/C類的概率,類似陪審團;
判別模型---通過給定函數判斷Y/N,類似大法官裁決;

(1)ICDM
1.分類---C4.5使用決策樹算法,可以解決【分類】&【回歸】問題;
2.聚類---K-Means算法,屬於無監督方法,解決電信用戶分類問題;
3.統計學習---SVM(支持向量機)可以解決分類(主)和回歸問題,有很好的表現和深厚的數學理論支撐,曾經被認為是最好的分類算法。現在光芒被【深度學習】掩蓋了。有一定的數學門檻,面試中經常被問。
4.關聯分析---Apriori應用於“尿片和紙尿褲”案例,最早解決了頻繁項集問題。由於需要頻繁訪問數據庫,已被淘汰。取代它的是華人開的【FP-Growth】算法。應用:電商的推薦系統,但目前有更好的替代方法。
5.統計分析---EM算法是一個算法框架,用於解決一系列問題。
6.連接挖掘---PageRank。Google使用的網頁排序算法,很著名。
7.集裝與推進---AdaBoosts算法,應用於人臉識別,本質為改進的決策樹算法,屬於有監督的分類算法。
8.分類---kNN。相對簡單的分類算法,有監督。
9.分類---Naive Bayes樸素貝葉斯算法,用於識別垃圾郵件。
目前不常用的算法:Apriori和CART。

(2)著名算法
1.FP-Growth---關聯分析方法Apriori的改進。
2.邏輯回歸---應用非常多,多用於百度、Google搜索結果的排序。
3.RF(隨機森林)、GBDT---和AdaBoost類似,都屬於決策樹算法。
4.推薦算法---電商標配
5.LDA---用於文本分析、自然語言處理。有一定的難度。
6.Word2Vector---google出品,耳熟能詳,用於文本挖掘。
7.HMM(隱馬爾科夫)、CRF(條件分析)---文本挖掘。
8.深度學習---目前最火的算法

技術分享圖片

機器學習解決問題

機器學習,預測問題(類別-離散 ,數值 -連續),聚類問題
確定目標:業務需求,數據,特征工程(數據預處理,提取特征 70%-數據的提取非常重要),數據可以直接就餵給算法,數據對模型的影響非常大,數據決定了最終的預測結果

機器學習解決問題的框架

訓練模型:定義模型-產生公式(根據具體要解決的問題)、定義損失函數(預測的結果與真實的結果之間的偏差最小的函數)、優化算法(使損失函數取極小值)
模型評估:交叉驗證、效果評估

初識機器學習-理論篇(慕課筆記)