1. 程式人生 > >深度學習筆記-持續更新

深度學習筆記-持續更新



深度學習演算法:
過去幾年以來,深度學習(簡稱 DL)架構及演算法已經在影象識別與自然語言處理(NLP)、資料科學、機器學習和預測分析領域領域取得了令人印象深刻的進展




TPU/CPU/GPU:深度學習晶片,因為複雜的深度學習網路需要同時進行數百萬次計算,耗能會變成一個嚴重問題。


TPU:巨頭谷歌,使用 TPU 代表了谷歌為其人工智慧服務設計專用硬體邁出的第一步,為特定人工智慧任務製造更多的專用處理器很可能成為未來的趨勢。
儘管在一些應用上利用率很低,但 TPU 平均比當前的 GPU 或 CPU 快15~30倍,效能功耗比高出約 30~80 倍”
李世石大戰 AlphaGo 時,TPU 也在應用之中,並且谷歌將 TPU 稱之為 AlphaGo 擊敗李世石的“祕密武器




CPU:巨頭英特爾,中央處理器(CPU)能夠非常高效地處理各種計算任務。但 CPU 的侷限是一次只能處理相對來說很少量的任務


GPU:巨頭英偉達,影象處理單元(GPU)在執行單個任務時效率較低,而且所能處理的任務範圍更小。強大之處在於它們能夠同時執行許多工。例如,如果你需要乘3個浮點數,CPU 會強過 GPU;但如果你需要做100萬次3個浮點數的乘法,那麼 GPU 會碾壓 CPU










1-人工智慧需要加速計算。在摩爾定律放緩的時代,加速器提供了深度學習重要的資料處理需求
2-張量處理是深度學習訓練和推理效能的核心
3-張量處理是企業在構建現代資料中心時必須重點考慮的新工作量(wordload)
4-加速張量處理可以大大降低修建現代資料中心的成本
























資料少:用歸納法
  資料多:機器學習演算法
  機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。
  
  它是人工智慧的核心,是使計算機具有智慧的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。
  
1.決策樹
2.隨機森林演算法
3.邏輯迴歸
4.SVM
5.樸素貝葉斯
6.K最近鄰演算法
7.K均值演算法
8.Adaboost 演算法
9.神經網路
10.馬爾可夫
  
  隨機森林演算法
  在機器學習中,隨機森林是一個包含多個決策樹的分類器, 並且其輸出的類別是由個別樹輸出的類別的眾數而定
  
  決策樹是一種基本的分類器,一般是將特徵分為兩類
  
  那隨機森林具體如何構建呢?有兩個方面:1資料的隨機性選取,2待選特徵的隨機選取。
  1.如果隨機森林中包含三個決策樹,兩個決策樹分類結果為A,一個決策樹分類結果為B,則隨機森林的分類結果為A.
  2.子樹的每一個分裂過程並未用到所有的待選特徵,而是從所有的待選特徵中隨機選取一定的特徵,之後再在隨機選取的特徵中選取最優的特徵。這樣能夠使得隨機森林中的決策樹都能夠彼此不同,提升系統的多樣性,從而提升分類效能。
  
  分類器:分類器就是給定一個樣本的資料,判定這個樣本屬於哪個類別的演算法。例如在股票漲跌預測中,我們認為前一天的交易量和收盤價對於第二天的漲跌是有影響的,那麼分類器就是通過樣本的交易量和收盤價預測第二天的漲跌情況的演算法。


  分裂:在決策樹的訓練過程中,需要一次次的將訓練資料集分裂成兩個子資料集,這個過程就叫做分裂。


  特徵:在分類問題中,輸入到分類器中的資料叫做特徵。以上面的股票漲跌預測問題為例,特徵就是前一天的交易量和收盤價。


  待選特徵:在決策樹的構建過程中,需要按照一定的次序從全部的特徵中選取特徵。待選特徵就是在目前的步驟之前還沒有被選擇的特徵的集合。例如,全部的特徵是 ABCDE,第一步的時候,待選特徵就是ABCDE,第一步選擇了C,那麼第二步的時候,待選特徵就是ABDE。


  分裂特徵:接待選特徵的定義,每一次選取的特徵就是分裂特徵,例如,在上面的例子中,第一步的分裂特徵就是C。因為選出的這些特徵將資料集分成了一個個不相交的部分,所以叫它們分裂特徵。
  
  
  
  
  
  
  
  
  
推薦演算法大致可以分為以下幾類:
基於流行度的演算法
協同過濾演算法
基於內容的演算法
基於模型的演算法
混合演算法
  
  
  
  
  
  
  
  打分用的分類,權重和係數
  
  
  協同過濾推薦演算法
  1.向量之間的相似度
  度量向量之間的相似度方法很多了,你可以用距離(各種距離)的倒數,向量夾角,Pearson相關係數等
  Pearson相關係數有個特點,它在計算兩個數列的相似度時忽略其平均值的差異。比如說有的使用者對商品評分普遍偏低,有的使用者評分普遍偏高,而實際上他們具有相同的愛好,他們的Pearson相關係數會比較高。使用者1對某一個商品的評分是X=(1,2,3),使用者2對這三個商品的評分是Y=(4,5,6),則X和Y的Pearson相關係數是0.865,相關性還是挺高的。
  
  2.基於使用者的協同過濾
  tep1.如果使用者i對專案j沒有評過分,就找到與使用者i最相似的K個鄰居(採用Pearson相關係數)
  step2.然後用這K個鄰居對專案j的評分的加權平均來預測使用者i對專案j的評分。
  
  3.基於物品的協同過濾
  step1.如果使用者i對專案j沒有評過分,就把ri,jri,j置為0。找到與物品j最相似的k個近鄰(採用餘弦距離)
  step2.然後用這K個鄰居對專案j的評分的加權平均來預測使用者i對專案j的評分。
  
  4.混合協同過濾
  所謂的混合演算法,主體思路還是基於使用者的協同過濾,只是在計算兩個使用者的相似度時又嵌套了item-based CF思想。
  
  
  
  
  
  
  
  
  
  
  
  什麼樣的資料不適合用深度學習?


1)資料集太小,因為神經網路有效的關鍵就是大量的資料,有大量的引數需要訓練,少量的資料不能充分訓練引數。2)資料集沒有區域性相關性。目前深度學習應用的領域主要是影象、語音、自然語言處理,這些領域的共性就是區域性相關性。例如:影象中的畫素組成物體,語音中的音位組成單詞,文字資料中的單片語成句子,而深度學習的本質就是學習區域性低層次的特徵,然後組合低層次的特徵成高層次的特徵,得到不同特徵之間的空間相關性。