《大數據日知錄》讀書筆記-ch12機器學習：範型與架構

阿新 • • 發佈：2019-04-10

框架梯度目前 reduce 訓練編程 base 屬於 parallel

機器學習算法特點：叠代運算

損失函數最小化訓練過程中，在巨大參數空間中叠代尋找最優解

比如：主題模型、回歸、矩陣分解、SVM、深度學習

分布式機器學習的挑戰：

- 網絡通信效率

- 不同節點執行速度不同：加快慢任務

- 容錯性

技術分享圖片

機器學習簡介：

技術分享圖片

數據並行vs模型並行：

技術分享圖片

數據並行

技術分享圖片

模型並行

技術分享圖片

分布式機器學習範型：

其他情形

MPI：容錯性差、集群規模小、擴展性低

GPU：目前處理規模中等（6-10GB）

1. 同步範型（嚴格情形每輪叠代進行數據同步）

技術分享圖片

快等慢，計算資源浪費；網絡通信多

eg：MapReduce叠代計算、BSP模型屬於嚴格同步範型

2. 異步範型（任意時刻讀取更新全局參數）

技術分享圖片

若部分任務叠代嚴重落後會拉低效果

3. 部分同步範型（主要研究方向）

技術分享圖片

eg：SSP模型

MapReduce叠代計算模型

技術分享圖片

BSP（Bulk Synchronous Parallel）計算模型

“橋接模型”：介於純硬件、純編程模式之間的模型

許多相關工作已驗證BSP模型的健壯性、性能可預測性和可擴展性

技術分享圖片

優點：

技術分享圖片

缺點：

資源利用率低、網絡通信多、計算效率低

圖計算框架也用BSP：比如Pregel、Giraph

SSP（Stale Synchronous Parallel）計算模型

技術分享圖片

閾值s=0時，SSP退化為BSP同步模型；s=+inf時，SSP演化為完全異步模型

分布式機器學習架構：

MapReduce系列架構：

Cloudera Oryx、Apache Mahout，兩者類似。

技術分享圖片

Spark及MLBase：

Spark

技術分享圖片

2. MLBase

技術分享圖片

參數服務器（Parameter Server）：

比如：Google能處理百億參數的深度機器學習框架DistBelief

1. 架構

技術分享圖片

2. 一致性模型

需要設計新型的參數副本一致性均衡正確性和並發度。往往通過受限的異步並行方式（類似於部分同步並行）

1）時鐘界異步並行（Clock-bounded Asynchronous Parallel，CAP）

技術分享圖片

2）值界異步並行（Value-bounded Asynchronous Parallel，VAP）

不考慮時鐘值而是參數的更新積累數值。

技術分享圖片

也可以集成CAP和VAP。有理論可以證明：對於隨機梯度下降等常見機器學習算法，VAP可以保證算法收斂性。

3. SSPTable

技術分享圖片

《大數據日知錄》讀書筆記-ch12機器學習：範型與架構

框架梯度目前 reduce 訓練編程 base 屬於 parallel 機器學習算法特點：叠代運算損失函數最小化訓練過程中，在巨大參數空間中叠代尋找最優解比如：主題模型、回歸、矩陣分解、SVM、深度學習分布式機器學習的挑戰： - 網絡通信效率 -

《大數據日知錄：架構與算法》讀書筆記（多圖）

打通導論 ges wid 技術分享二次思維知識點很好第二次讀這本書，這次是精讀，畫了思維導圖。書很好，完整的知識結構和由淺入深的介紹，非常全面以至於知識點都梳理了三天。作為導論式的總覽，對大數據領域有了個總體的認識，接下來可以更針對性地加強和實踐。總體上

《大數據日知錄》讀書筆記-ch1數據分片與路由

lsp 負載不均圖片 obi 縱向擴展數據庫 b+樹 ash padding 目前主流大數據存儲使用橫向擴展（scale out）而非傳統數據庫縱向擴展（scale up）的方式。因此涉及數據分片、數據路由（routing）、數據一致性問題二級映射關系：k

《大數據日知錄》讀書筆記-ch2數據復制與一致性

replica 綁定原子性 lpad 崩潰配置定性 atomic ide CAP理論：Consistency，Availability，Partition tolerance 對於一個分布式數據系統，CAP三要素不可兼得，至多實現其二。要麽AP，要麽

讀書筆記-《機器學習》第六章：支援向量機

支援向量機訓練完成後，大部分的訓練樣本都不需要保留，最終模型僅與支援向量有關 SMO的基本思路是先固定xi之外的所有引數，然後求xi上的極值。由於存在約束，因此SMO每次選擇兩個變數並固定其他引數

《數據庫設計入門經典》讀書筆記——第三章：工作場所中的數據庫建模

中間特定理論大學並且外鍵另一個必須所有規範化用於粒度化和組織在數據庫中使用的數據。在第4章中將詳細介紹規範化和應用範式的過程。在這個階段只需要知道規範化是用於將數據劃分到單獨表中的方法或公式——根據一組規則。不信任將視圖用於除了安全性目標之外的任何事情

《數據科學家訪談錄》讀書筆記

人工智能《數據科學家訪談錄》【美】Carl Shan（單研）、William Chen（陳子蔚）、Henry Wang（汪強明） Max Song（宋邁思）著點擊封面購買紙書https://item.jd.com/12286963.html 一、本書內容的介紹《數據科學家訪談錄》是一本對當前全球最知名

《Python網絡數據采集》讀書筆記（一）

urllib BeautifulSoup 思考“網絡爬蟲”時通常的想法：? 通過網站域名獲取 HTML 數據? 根據目標信息解析數據? 存儲目標信息? 如果有必要，移動到另一個網頁重復這個過程當網絡瀏覽器遇到一個標簽時，比如<img src="cuteKitten.jpg"&

《Python網絡數據采集》讀書筆記（二）

find child descendant sibling parent 1、通過的名稱和屬性查找標簽和之前一樣，抓取整個頁面，然後創建一個BeautifulSoup對象。這裏面“lxml”解析器需要另外下載。pip3 install lxml>>> from urlli

《Python網絡數據采集》讀書筆記（三）

正則 attrs lambda 1、正則表達式常用符號(1)* 匹配前面的字符、子表達式或括號裏的字符0次或多次例如：a*b* 結果：aaa,aaabb,bb(2)+ 匹配前面的字符、子表達式或括號裏的字符至少1次例如：a+b+ 結果：aaab,aabb,a

《Python網絡數據采集》讀書筆記（四）

wiki 維基 scrapy 1、遍歷單個域名維基百科那些指向詞條頁面（不是指向其他內容頁面）的鏈接有三個共同點：? 它們都在id是bodyContent的div標簽裏? URL鏈接不包含分號? URL鏈接都以/wiki/開頭# -*- coding: utf-8 -*- import re fr

《Python網絡數據采集》讀書筆記（六）

CSV1、urllib.request.urlretrieve可以根據文件的URL下載文件：# -*- coding: utf-8 -*- from urllib.request import urlretrieve from urllib.request import urlopen from bs4 im

《Python網絡數據采集》讀書筆記（五）

JSON1、解析JSON數據Python把JSON轉換成字典，JSON數組轉換成列表，JSON字符串轉換成Python字符串。下面的例子演示了使用Python的JSON 解析庫，處理JSON字符串中可能出現的不同數據類型：>>> import json >>> jsonSt

SqlServer和MySql數據庫搭建ZBLOG讀書筆記站點方案和優缺點[圖]

ASP PHP 方案網站 IT 很多年以前，大家都知道博客兩個字，因為那時候博客流行，大多數人都在寫博客，博客一般都選擇一個主題來作為自己的寫作方向，並且對於主體性都比較有建樹，大多數時候都是專業人士的心得體會文章，比較適合大家閱讀和參考。如今，大家不再熟悉博客網站了吧，但是有一種新的

博客SQL-Server更新數據庫UPDATE語法讀書筆記[圖]

熱門博客得出索引條件 ast 進行但是判斷最近在研究博客網站，其實在很多年以前，博客是非常流行的，那時候互聯網還處於發展的初級階段，尤其是在中國地區，因此出現了國內-國外兩大博客系統，分別是zblog和wordpress程序，當然了，很顯然是國外的博客最先被開

軟體管理沉思錄讀書筆記

《軟體管理沉思錄》讀書筆記 Watts S.Humphrey和William R.Thomas的著作《軟體管理沉思錄》中所講的，正如書的副標題——SEI的專案管理、人際溝通和團隊協作要訣——那樣，論述了軟體開發和管理工作的很多原則和技巧，可以幫助軟體工作者和管理者形成自己的工作風格和開發

APP研發錄讀書筆記:網路底層框架設計

一.統一響應實體類Response 我們一般採用JSON作為API返回結果，資料格式一般為： { "errorCode":0, "errorMessage":""; "res

《java並發編程實戰》讀書筆記8--死鎖，性能與可伸縮性，鎖粒度鎖分解鎖分段

線程 com display 次數傳遞 pan blog right 影響第10章避免活躍性危險 10.1 死鎖 -10.1.1 鎖順序死鎖最簡單的一種死鎖形式： -10.1.2 動態的鎖順序死鎖可以通過下面的方法來解決： -10.1.3 在協

spring揭秘讀書筆記二 BeanFactory的對象註冊與依賴綁定

oct anr ctx nfc col line 增加 sso default 本文是王福強所著<<spring揭秘>>一書的讀書筆記我們前面就說過,Spring的IoC容器時一個IoC Service Provider,並且IoC

Maven實戰讀書筆記（三）：Maven依賴

aging com cti 無效 type -c maven 傳遞依賴歸類 3.1 依賴的配置一個依賴聲明可以包含下面元素： <dependencies> <dependency> <groupId></

《大數據日知錄》讀書筆記-ch12機器學習：範型與架構

相關推薦