1. 程式人生 > >構建無處不在的深度學習部署系統

構建無處不在的深度學習部署系統

《SDCC 2017 人工智慧技術實戰線上峰會》學習筆記
劉文志

深度學習部署平臺特點:

深度學習的兩個方面:

部署、訓練

面臨的挑戰:現代深度學習部署平臺要求:

  • 支援多種不同的架構不同廠家
  • 不同硬體
  • 不同程式語言
  • 不同終端:伺服器、桌面、筆記本、手機、智慧硬體、機器人、無人機
  • 高效能:手機、機器人、無人機、智慧硬體不會用效能很高的晶片
  • 易於使用:Windows Linux Android IOS統一介面

深度學習部署平臺的運算:

  • 神經網路
  • 影象處理
  • 矩陣、向量運算

主流深度學習部署硬體架構及特性

這裡寫圖片描述

挑戰:高效能

效能與可維護性、可靠性衝突
使用最底層的編碼方式
- Intrinsic彙編
- 時間長、難度大
生產率下降
- 原來10行,現在100行
- 原來處理一種情況,現在處理十種情況
除錯、維護代價大
解決方法:
- 只處理最耗時、影響效能的部分
- 能用高層的語言/方式,就不用底層的
- 基礎:20% 80%定理

現代主流處理器高效能程式設計方式

Intel
這裡寫圖片描述

這裡寫圖片描述

挑戰:不同硬體型別

效能差別大
- 手機CPU、桌面CPU、。。。
程式設計方式差別大
- C OpenCL CUDA Verilog
優化難度差別大
- CUDA難,OPENCL更難,Verilog超難
程式效能在不同硬體上不一致
- NVIDA GPU上跑3ms好快,PC上跑100ms 還行,手機上跑2s
解決方法:
- 提前做效能預測、降低研發人員閾值
- 效能越低的平臺,越做極致的優化

挑戰 : 融入廠商的實現

廠商有各種實現,但不相容
- Intel MKLDNN
- ARM ACL
- NVIDA CUDNN/TensorRT

解決方案:
- 加相容層抽象
- 條件編譯

挑戰:統一使用介面

使用者想使用自己喜歡的語言
- 伺服器:java/go/ruby
- apple:objectC Swift
- 潛在的高層語言數量無限
維護人員只想使用一套介面
- 維護代價,保證一致性等等
解決方法:雙層設計
- 底層:標準C介面
- 高層:應用介面、淺層封裝
- C介面不變,高層介面不變
- C介面改變,上層介面可能不變,改對應底層介面呼叫即可。

人工智慧部署平臺支援不同的硬體架構

這裡寫圖片描述

圖形影象處理

硬體平臺支援廣泛

  • x86 / arm cpu/nvidia gpu/qualcomm gpu/arm gpu

常見影象處理函式

OpenCV

作業系統支援廣泛

極高的效能

  • OpenCV
  • 高通FastCV

如何評估部署平臺效能/效率

  • 哈佛架構
  • 儲存器
  • 計算
  • 儲存計算均衡
  • 資源競爭與備份

這裡寫圖片描述

(PPL 該部署平臺的名字)

嵌入式ARM人臉對比解決方案

這裡寫圖片描述

駕駛員分析系統:
這裡寫圖片描述

相關推薦

構建無處不在的深度學習部署系統

《SDCC 2017 人工智慧技術實戰線上峰會》學習筆記 劉文志 深度學習部署平臺特點: 深度學習的兩個方面: 部署、訓練 面臨的挑戰:現代深度學習部署平臺要求: 支援多種不同的架構不同廠家 不同硬體 不同程式語言 不同終端:伺服器、桌

YouTube 深度學習推薦系統的十大工程問題

這篇文章主要介紹了 YouTube 深度學習系統論文中的十個工程問題,為了方便進行問題定位,我們還是簡單介紹一下背景知識,簡單回顧一下 Deep Neural Networks for YouTube Recommendations中介紹的 YouTube 深度學習推薦系統的框架。(更詳細的資訊,請參見重讀

深度學習對話系統理論--資料集和評價指標介紹

對話系統常用評價指標 當前對話系統之所以還沒有取得突破性的進展,很大程度上是因為沒有一個可以準確表示回答效果好壞的評價標準。對話系統中大都使用機器翻譯、摘要生成領域提出來的評價指標,但是很明顯對話系統的場景和需求與他們是存在差別的,這也是當前模型效果不是很好的原因之一。從對

從頭實現一個深度學習對話系統--Seq-to-Seq模型詳解

上一篇文章已經介紹了幾篇關於Seq-to-Seq模型的論文和應用,這裡就主要從具體的模型細節、公式推導、結構圖以及變形等幾個方向詳細介紹一下Seq-to-Seq模型。這裡我們主要從下面幾個層次來進行介紹: Seq-to-Seq框架1 Seq-to-Seq框架

深度學習部署-tensorflow 部署方法

TensorFlow 是目前最為流行的機器學習框架之一,通過它我們可以便捷地構建機器學習模型。使用 TensorFlow 模型對外提供服務有若干種方式,本文將介紹如何使用 SavedModel 機制來編寫模型預測介面。鳶尾花深層神經網路分類器首先讓我們使用 TensorFlo

深度學習對話系統理論篇--資料集和評價指標介紹

對話系統常用評價指標 當前對話系統之所以還沒有取得突破性的進展,很大程度上是因為沒有一個可以準確表示回答效果好壞的評價標準。對話系統中大都使用機器翻譯、摘要生成領域提出來的評價指標,但是很明顯對話系統的場景和需求與他們是存在差別的,這也是當前模型效果不是很好的

深度學習部署--tensorflow 用c++呼叫前向

目前,TensorFlow官方推薦使用Bazel編譯原始碼和安裝,但許多公司常用的構建工具是CMake。TensorFlow官方並沒有提供CMake的編譯示例,但提供了MakeFile檔案,所以可以直接使用make進行編譯安裝。另一方面,模型訓練成功後,官方提供了TensorFlow Servering進行預

廣告行業中那些趣事系列9:一網打盡Youtube深度學習推薦系統

最新最全的文章請關注我的微信公眾號:資料拾光者。   摘要:本篇主要分析Youtube深度學習推薦系統,借鑑模型框架以及工程中優秀的解決方案從而應用於實際專案。首先講了下使用者、廣告主和抖音這一類視訊平臺三者之間的關係:就是平臺將視訊資源作為商品免費賣給使用者,同時將使用者作為商品有償賣給廣告主

輕鬆 無錯 系統的配置深度學習框架 tensorflow cuda cudnn tensorflow caffe 版本任意切換 多版本並存

前置安裝:nvidia 顯示卡驅動 下一步安裝anaconda,如果安裝anaconda3就會自動去連結python3 配套的庫。 首先理解下配置環境是在幹嘛:很簡單,就是安裝軟體 那麼怎麼簡化這個過程,避免換個環境,就得解除安裝重灌,和別人共用一個伺服器,就為了配置環境焦頭爛額。

分享《TensorFlow學習指南:深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF

下載:https://pan.baidu.com/s/1v4B-Jp-lQClBWiCfDd1_dw 更多分享:http://blog.51cto.com/14050756 《TensorFlow學習指南:深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF英文完整版PDF,242頁,帶目錄書籤,彩色

《TensorFlow學習指南:深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF

下載:https://pan.baidu.com/s/1v4B-Jp-lQClBWiCfDd1_dw 更多資料:https://pan.baidu.com/s/1g4hv05UZ_w92uh9NNNkCaA 《TensorFlow學習指南:深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF英文完整版

分享《TensorFlow學習指南:深度學習系統構建詳解》英文PDF+源代碼+部分中文PDF

size 分布式 部署 模型 -o 卷積神經網絡 ref ima 源代碼 下載:https://pan.baidu.com/s/1v4B-Jp-lQClBWiCfDd1_dw 更多分享:http://blog.51cto.com/14050756 《TensorFlow學習

TensorFlow 學習指南:深度學習系統構建詳解

內容簡介 面向廣泛的技術受眾(從資料科學家、工程師到學生和研究人員),本書介紹了 TensorFlow 的基本原理和實踐方法。從 TensorFlow 中的一些基本示例開始,深入探討諸如神經網路體系結構、TensorBoard 視覺化、TensorFlow 抽象庫和多執行緒輸入管道等主題。閱讀本書

構建深度學習環境(基於Pycharm/Python/Tensorflow/Linuxx系統/VMware的開發平臺構建

構建深度學習平臺 內容: 在Win7環境下安裝Linux系統,包括安裝VMware Workstation Pro虛擬系統平臺和Linux虛擬系統;安裝Anaconda安裝Tensorflow安裝pycharm整合環境測試 說明:文章內容全部是自己作為初學者一步一步嘗試成功

隨時更新———個人喜歡的關於模式識別、機器學習、推薦系統、圖像特征、深度學習、數值計算、目標跟蹤等方面個人主頁及博客

lam c++源代碼 for 閾值處理 mmc 閾值 align sources 回歸算法 目標檢測、識別、分類、特征點的提取David Lowe:Sift算法的發明者,天才。Rob Hess:sift的源代碼OpenSift的作者,個人主頁上有openSift的下載鏈接

深度學習實踐系列之--身份證上漢字及數字識別系統的實現(上)

手動 ear 常用 env 窗口 mic 文件下載 oot edr 前言: 本文章將記錄我利用深度學習方法實現身份證圖像的信息識別系統的實現過程,及學習到的心得與體會。本次實踐是我投身AI的初次系統化的付諸實踐,意義重大,讓自己成長許多。終於有空閑的時間,將其

解決pxe+ks自己主動化部署系統,磁盤大於2TB時候,能引導問題

ring 分享 ext 2tb down addclass sdn dsm track 公司之前的server都是有450GB的ssd磁盤,系統部署在ssd上面。後來有些server換掉了用3TBsata磁盤換掉了ssd,再安裝系統的時候,不能引導。例如

斯坦福新深度學習系統 NoScope:視頻對象檢測快1000倍

這樣的 nvidia 備份 stanford feed 角度 靜態圖 普通 acc 以作備份,來源http://jiasuhui.com/archives/178954 本文由“新智元”(微信ID:AI_era)編譯,來源:dawn.cs.stanford.edu,編譯:

被詬病實用的超級計算機,在深度學習時代會改變嗎?

超算在中學課本裏,我們都學到過“超級計算機”這個概念,在印象裏它通常和神州五號、航空母艦等等高科技設備出現在同一個章節,屬於國家科研能力的體現,更是在國際科技戰備的賽點。現在這麽多年過去了,一回神中國超級計算機的代表作已經從天河進化成了神威·太湖之光,並且通過對地震、海浪等等自然現象的精確模擬兩次獲得了戈登貝