關於舉辦“GPU並行程式設計實踐”高階實操班的培訓通知
隨著人工智慧AI、大資料Big Data、雲端計算Cloud Computing等計算機科學技術的發展和應用的普及,深度學習DL和人工智慧AI成為當下最炙手可熱的技術趨勢,將成為技術行業基礎設施的核心組成部分。GPU的價值不止體現在深度學習,在高效能運算、物聯網、人工智慧、生物資訊、分子模擬、計算化學、材料力學、系統模擬、流體力學、機械設計、生物製藥、航空動力、地質勘探、氣候模擬等領域,演算法越來越複雜,需要處理的海量資料越來越巨大,高效能運算能力就顯得尤為重要。如今,乎所有的深度學習(機器學習)研究者都在使用GPU進行相關的研究,NVIDIA針對深度學習的計算,有一套完整的解決方案,cuDNN已經成為主流深度學習框架呼叫的深度學習GPU函式庫,包含完整的矩陣乘法和卷積計算的實現。
GPU高效能運算已成為AI重要支撐技術,因此我單位舉辦“GPU並行程式設計實踐培訓班”,具體由北京中科雲暢應用技術研究院舉辦,本次培訓班由權威師資主講。
一、培訓目的:
現有硬體資源最大化利用,提供多種並行優化方案組合策略,提高並行程式設計與開發水平,熟悉常見的平行計算模式,瞭解深度學習的主流GPU加速解決方案;實際體驗高效能運算環境,能夠應對主流的超算環境;提供符合自身特點的工程計算解決方案,瞭解高效能運算和深度學習應用場景。
二、主講專家:
劉老師 中科院單位工程師,研究領域主要集中在高效能運算機系統結構、系統軟體、高效能並行演算法、高效能運算應用、可重構加速計算等幾個方向。多年MPI/OpenMP/CUDA/OpenCL/OpenACC優化加速經驗,有多個大型專案演算法的HPC雲端計算並行優化加速經驗。
三、時間地點:可諮詢:13932327338
2019年1月 21-22日(20日報道)北京中科院計算所龍芯產業園
四、培訓費用:每人2500元(含報名費、培訓費、資料費),食宿可統一安排,費用自理。
五、培訓物件:
從事高效能運算、GPU加速、平行計算、CUDA程式設計、openCV、石油、氣象、化工、人工智慧、深度學習、計算機視覺、人臉識別、 影象處理、行人檢測、自然語言處理等領域相關的企事業單位技術骨幹、科研院所研究人員和大專院校相關專業教學人員及在校研究生等相關技術人員;
六、培訓內容:
GPU高效能運算——OpenACC程式設計基礎與優化進階 平行計算的應用場景和實際意義
平行計算機體系結構:處理器、記憶體和互連網,常用的平行計算機系統
效能分析模型:如何測量並行效能和擴充套件性
CPU/GPU體系結構對比介紹:流水線、多核、快取、訪存、通訊模型、分支預測等
OpenACC基礎:概念,與CUDA區別,編譯器,生態
OpenACC四步開發流程:判斷並行性,並行化表達,顯式資料傳遞,優化
判斷並行性:Profile工具pgprof
並行化表達:引導關鍵字Kernerls和Parallel Loop
顯式管理資料的拷貝:引導關鍵字Data
OpenACC上機實戰:向量點乘
OpenACC優化:統一記憶體管理,執行緒並行層級,collapse,tile
GPU高效能運算——CUDA程式設計基礎與優化進階 CUDA基礎:API、資料並行、執行緒模型、儲存模型、控制、同步、併發和通訊、加速比
CUDA開發環境搭建和工具配置
CUDA上機:Helloworld,向量加
CUDA優化進階:執行緒組織排程,分支語句,訪存優化,資料傳輸,原子操作
CUDA上機:矩陣乘、直方圖
GPU平行計算模式及案例分析
分析除錯:parallel nsight,visual profiler,cuda-gdb
CUDA上機實戰:卷積,reduce和scan
GPU非同步程式設計,多GPU程式設計(混合OpenMP和MPI)及除錯調優工具
OpenACC互操作性:OpenMP,MPI,CUDA
NVIDIA最新技術:CUDA 10新特性,Turing顯示卡
GPU高效能運算——深度學習 1.1基於GPU的互動式深度學習訓練平臺:DIGITS;
1.2深度學習框架的GPU加速:TensorFlow,Caffe等;
1.3 NVIDIA深度學習SDK:cuDNN,TensorRT,NCCL;
1.4深度學習顯示卡選擇;
深度學習上機實操:
Caffe,TensorFlow,Theano等通用深度學習框架的GPU加速庫cuDNN的使用;