1. 程式人生 > >谷歌深度學習在Kubernetes上的實踐

谷歌深度學習在Kubernetes上的實踐

目錄

深度學習簡介

  • 深度學習的動機
  • 人類學習
  • 通用學習模型假設
  • 深度學習——影象處理
  • 深度學習——影象處理應用
  • 深度學習——自然語言處理
  • 深度學習——自然語言處理應用
  • 神經網路模型

Tensorflow簡介

Run Tensorflow on Docker

  • 編譯映象
    • Google官方提供Tensorflow的基礎映象
    • 執行TensorBoard
    • 執行檔案伺服器方便檔案傳輸
    • 拷貝demo(optional)
  • 執行映象

Tensorflow Hello World demo

Tensorboard demo

Tensorflow + Kubernetes

計算量問題

優化問題

Kubernetes to the rescue

  • 谷歌內部——Borg
  • Google Brain跑在數十萬臺機器上
  • 谷歌電商商品分類深度學習模型跑在1000+臺機器上
  • 谷歌外部——Kubernetes
  • Kubernetes為Borg的開源版,是一個容器叢集管理系統
  • Tensorflow原生態支援並行化的跑在kubernetes上

Distributed Tensorflow

Tensorflow on Kubernetes

  • 啟動cluster
    • 啟動對每個Server需要指定其他Server Ip
      • 每個Server建立一套Service – Replica-Controller
      • PetSet
    • 對於每個Server需要指定是引數伺服器還是計算伺服器
  • 執行Job
    • 手工指定不同操作到不同伺服器
    • 不同伺服器計算不同資料