谷歌深度學習在Kubernetes上的實踐
阿新 • • 發佈:2018-12-27
目錄
深度學習簡介
- 深度學習的動機
- 人類學習
- 通用學習模型假設
- 深度學習——影象處理
- 深度學習——影象處理應用
- 深度學習——自然語言處理
- 深度學習——自然語言處理應用
- 神經網路模型
Tensorflow簡介
Run Tensorflow on Docker
- 編譯映象
- Google官方提供Tensorflow的基礎映象
- 執行TensorBoard
- 執行檔案伺服器方便檔案傳輸
- 拷貝demo(optional)
- 執行映象
Tensorflow Hello World demo
Tensorboard demo
Tensorflow + Kubernetes
計算量問題
優化問題
Kubernetes to the rescue
- 谷歌內部——Borg
- Google Brain跑在數十萬臺機器上
- 谷歌電商商品分類深度學習模型跑在1000+臺機器上
- 谷歌外部——Kubernetes
- Kubernetes為Borg的開源版,是一個容器叢集管理系統
- Tensorflow原生態支援並行化的跑在kubernetes上
Distributed Tensorflow
Tensorflow on Kubernetes
- 啟動cluster
- 啟動對每個Server需要指定其他Server Ip
- 每個Server建立一套Service – Replica-Controller
- PetSet
- 對於每個Server需要指定是引數伺服器還是計算伺服器
- 啟動對每個Server需要指定其他Server Ip
- 執行Job
- 手工指定不同操作到不同伺服器
- 不同伺服器計算不同資料