構建無處不在的深度學習部署系統

阿新 • • 發佈：2019-01-18

《SDCC 2017 人工智慧技術實戰線上峰會》學習筆記
劉文志

深度學習部署平臺特點：

深度學習的兩個方面：

部署、訓練

面臨的挑戰：現代深度學習部署平臺要求：

支援多種不同的架構不同廠家
不同硬體
不同程式語言
不同終端：伺服器、桌面、筆記本、手機、智慧硬體、機器人、無人機
高效能：手機、機器人、無人機、智慧硬體不會用效能很高的晶片
易於使用：Windows Linux Android IOS統一介面

深度學習部署平臺的運算：

神經網路
影象處理
矩陣、向量運算

主流深度學習部署硬體架構及特性

這裡寫圖片描述

挑戰：高效能

效能與可維護性、可靠性衝突
使用最底層的編碼方式
- Intrinsic彙編
- 時間長、難度大
生產率下降
- 原來10行，現在100行
- 原來處理一種情況，現在處理十種情況
除錯、維護代價大
解決方法：
- 只處理最耗時、影響效能的部分
- 能用高層的語言/方式，就不用底層的
- 基礎：20% 80%定理

現代主流處理器高效能程式設計方式

Intel
這裡寫圖片描述

這裡寫圖片描述

挑戰：不同硬體型別

效能差別大
- 手機CPU、桌面CPU、。。。
程式設計方式差別大
- C OpenCL CUDA Verilog
優化難度差別大
- CUDA難，OPENCL更難，Verilog超難
程式效能在不同硬體上不一致
- NVIDA GPU上跑3ms好快，PC上跑100ms 還行，手機上跑2s
解決方法：
- 提前做效能預測、降低研發人員閾值
- 效能越低的平臺，越做極致的優化

挑戰：融入廠商的實現

廠商有各種實現，但不相容
- Intel MKLDNN
- ARM ACL
- NVIDA CUDNN/TensorRT

解決方案：
- 加相容層抽象
- 條件編譯

挑戰：統一使用介面

使用者想使用自己喜歡的語言
- 伺服器：java/go/ruby
- apple：objectC Swift
- 潛在的高層語言數量無限
維護人員只想使用一套介面
- 維護代價，保證一致性等等
解決方法：雙層設計
- 底層：標準C介面
- 高層：應用介面、淺層封裝
- C介面不變，高層介面不變
- C介面改變，上層介面可能不變，改對應底層介面呼叫即可。

人工智慧部署平臺支援不同的硬體架構

這裡寫圖片描述

圖形影象處理

硬體平臺支援廣泛

x86 / arm cpu/nvidia gpu/qualcomm gpu/arm gpu

常見影象處理函式

OpenCV

作業系統支援廣泛

極高的效能

OpenCV
高通FastCV

如何評估部署平臺效能/效率

哈佛架構
儲存器
計算
儲存計算均衡
資源競爭與備份

這裡寫圖片描述

（PPL 該部署平臺的名字）

嵌入式ARM人臉對比解決方案

這裡寫圖片描述

駕駛員分析系統：
這裡寫圖片描述

構建無處不在的深度學習部署系統

深度學習部署平臺特點：

深度學習的兩個方面：

面臨的挑戰：現代深度學習部署平臺要求：

深度學習部署平臺的運算：

主流深度學習部署硬體架構及特性

挑戰：高效能

現代主流處理器高效能程式設計方式

挑戰：不同硬體型別

挑戰：融入廠商的實現

挑戰：統一使用介面

人工智慧部署平臺支援不同的硬體架構

圖形影象處理

硬體平臺支援廣泛

常見影象處理函式

作業系統支援廣泛

極高的效能

如何評估部署平臺效能/效率

嵌入式ARM人臉對比解決方案

構建無處不在的深度學習部署系統

YouTube 深度學習推薦系統的十大工程問題

深度學習對話系統理論--資料集和評價指標介紹

從頭實現一個深度學習對話系統--Seq-to-Seq模型詳解

深度學習讓系統“看”懂短視訊內容

深度學習部署-tensorflow 部署方法

深度學習對話系統理論篇--資料集和評價指標介紹

深度學習部署--tensorflow 用c++呼叫前向

廣告行業中那些趣事系列9：一網打盡Youtube深度學習推薦系統

輕鬆無錯不傷系統的配置深度學習框架 tensorflow cuda cudnn tensorflow caffe 版本任意切換多版本並存

分享《TensorFlow學習指南：深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF

《TensorFlow學習指南：深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF

分享《TensorFlow學習指南：深度學習系統構建詳解》英文PDF+源代碼+部分中文PDF

TensorFlow 學習指南：深度學習系統構建詳解

構建深度學習環境（基於Pycharm/Python/Tensorflow/Linuxx系統/VMware的開發平臺構建）

隨時更新———個人喜歡的關於模式識別、機器學習、推薦系統、圖像特征、深度學習、數值計算、目標跟蹤等方面個人主頁及博客

深度學習實踐系列之--身份證上漢字及數字識別系統的實現（上）

解決pxe+ks自己主動化部署系統，磁盤大於2TB時候，不能引導問題

斯坦福新深度學習系統 NoScope：視頻對象檢測快1000倍

被詬病不實用的超級計算機，在深度學習時代會改變嗎？

構建無處不在的深度學習部署系統

深度學習部署平臺特點：

深度學習的兩個方面：

面臨的挑戰：現代深度學習部署平臺要求：

深度學習部署平臺的運算：

主流深度學習部署硬體架構及特性

挑戰：高效能

現代主流處理器高效能程式設計方式

挑戰：不同硬體型別

挑戰 ： 融入廠商的實現

挑戰：統一使用介面

人工智慧部署平臺支援不同的硬體架構

圖形影象處理

硬體平臺支援廣泛

常見影象處理函式

作業系統支援廣泛

極高的效能

如何評估部署平臺效能/效率

嵌入式ARM人臉對比解決方案

相關推薦

挑戰：融入廠商的實現