1. 程式人生 > >NVIDIA顯示卡硬體技術交流整理

NVIDIA顯示卡硬體技術交流整理

跨工作站顯示卡資源共享

目前萬兆網絡卡,但是不推薦window平臺,一般使用在伺服器,目前是壓縮資料包方式。一個4k/幀大概為4MB

· RDMA技術

  • 對硬體有哪些限制,能否用於乙太網絡?
  • 是否依賴網路頻寬限制,能否達到網路頻寬的極限傳輸速率?
  • 使用什麼協議傳輸資料,是否可靠?
  • RDMA接收到的資料能否直接被其他程序使用,例如:Unity3D?
  • 單機多卡是否對RDMA的傳輸速率有影響?

答:推薦IB網

· 是否有其他方式可以實現跨工作站的視訊記憶體資料共享?

答:暫無,只能底層優化才能解決。

· 硬編碼技術

o 視訊編碼H264、H265能否結合RDMA使用?

   答:兩者沒有關係,不能直接硬編碼完碼流直接傳輸到另一臺工作站顯示卡內,中間必須過CPU。比如現在海康都沒有這樣的成功案例。國外一個研究機構使用FPGA的工具,直接拍,直接接卡上的晶片,直接PCI傳送出去。吞吐量幾百萬張照片/每秒。

o 目前單卡對H264、H265的編解碼頻寬最高是多少?

答:後續給資料

o 單機多卡對編解碼的頻寬提升是否是倍增,例如:單卡編碼頻寬為160Mbps,雙

卡則為320Mbps?

答:多顯示卡編碼晶片均可使用,獨立控制,負載均衡,建議放到一塊CPU上(同一個CPU插槽上管理)

o 顯示卡的硬解碼速率是否高於硬編碼,即:硬解碼頻寬高於硬編碼頻寬?

答:看具體使用的晶片

o 顯示卡在進行硬編碼、硬解碼時是否會佔用顯示卡視訊記憶體?

答:不看視訊記憶體,佔用的是CUDA核心(顯示卡負載會有變化);專用於硬體碼的推薦Tesla p4(使用在後端),

如果GPU利用率變化不大,可能是你的編位元速率不是特別高。

不同顯示卡硬解能力不一樣

o 顯示卡硬編碼、硬解碼的解析度是否有限制,16384?

答:目前最高8K,非標解析度可能不支援

專業卡與遊戲卡的區別

· 在使用DX執行GPU計算並拷貝資料到記憶體時,專業卡執行時間穩定,但遊戲卡波動較大(1080Ti),遊戲卡是否具備動態超頻的特性?

答:專業卡固定頻率執行,遊戲卡動態頻率執行,專業卡穩定;(驅動層面差別),遊戲卡會出現驅動崩潰、程式卡死、藍屏、最壞是卡燒掉。

N卡遊戲卡比A卡資料要好看

Dx的應用在遊戲卡上跑,肯定是不如專業卡的

Mosaic拼接在N卡所有功能裡面屬於幾個小功能,遊戲卡不具備這個功能

· 顯示卡是否具有類似於CPU時鐘的功能,可用於跨工作站的幀同步?

答:基於底層開發和利用同步卡進行多工作站同步

單工作站多顯示卡

· 使用DX渲染圖形時,如何利用多卡對效能進行提升?

答:多卡是自動做負載均衡的,建議安裝在同一CPU管理的PCI-E插槽

Cuda Nccl GPU多卡優化庫

· 若DX渲染的圖形跨了顯示卡,是否對效能有影響,即:一半的圖形在A卡上,另一

半在B卡上?

答:無,多卡是自動做負載均衡的,併發處理的。

· 若使用一張卡(A)做計算,一張卡做渲染(B),當A卡計算完的資料需要拷貝到B卡時,是否需要從系統記憶體中轉?

答:需要

硬體使用選型

1) P6000可以同時出幾路8K30hz?並且是否可同時進行Mosaic?P6000/5000/4000/2000顯示卡如何選擇?

答:可輸出4路8K(dp1.4),並可進行Mosaic拼接,顯示卡負載不到100%,目前壓力不大,NVIDIA的顯示卡DX效能要弱於AMD

2) 雙P6000顯示卡效能是否是雙倍提升?

答:雙卡效能提示,後續給網站可查詢官方公佈資料,視訊記憶體每塊各自佔用,並行處理

需補充資料

3) NVIDIA Quadro顯示卡單工作站多塊顯示卡拼接時是否需要同步卡?

答:需要同步卡,Win10;同步卡主要解決多個顯示卡通道的同步;(有可能與軟體也有關係)

4) Mosaic拼接可做的最大解析度是?

答:linux可做到32K;Windows10,需確認後回覆

5) Mosaic拼接和主桌面+擴充套件桌面兩種模式下相同的使用模式,顯示卡壓力是否有區別;

答:顯示卡處理方式不一樣,Mosaic壓力變大,更耗資源(整個桌面被拉大,GPU效能吃的更多,多執行緒與單執行緒 GPU核心處理上的差異)

6) DP轉成HDMI後進行Mosaic拼接對線材有什麼要求?(包括DP轉雙鏈路DVI和DP轉HDMI1.4/2.0)

答:DP轉HDMI需要被動式(只是針對P系列),被動式DVI,目前無推薦品牌型號(最好先接自帶的線再進行轉接)

7) Mosaic拼接後螢幕閃,拼接縫隙撕裂,不同步卡,造成類似問題的原因有哪些?

答:螢幕介面,線材,需實際進行排查測試

8) 對顯示卡效能影響最大的因素是?(Mosaic後的解析度?重新整理率?其他等);

答:多方因素,都有影響

9) HP、聯想、DELL的工作站雙顯示卡可以不用同步卡?

答:需要,都需要解決通道間的同步

HP、聯想、DELL的工作站是屬於OEM渠道

麗臺是走中國區企業級渠道

10) 驅動是從NVIDIA官網下還是從工作站官網下?版本最新即可?

答:官網,最新

11) 在Win7、Win8.1和Win10中Mosaic後效能不同,是否全是Windows系統自身優化的原因?

答:Windows的毛玻璃,透明效果造成撕裂等,Win10系統更新優化同時,顯示卡驅動也和系統做了對接優化,進而提升了效能和效果

12) 顯示卡驅動設定中是否有可以的優化的設定?

答:不建議調,可能會對其他程式有影響

13) 自定義解析度的重新整理率高低會對實際的業務應用有多大影響?對顯示卡的壓力是否有區別?

答:目前無區別,能測試成功即可

14) Mosaic拼接是否可以使用不同的解析度來進行Mosaic拼接(AMD專業卡可以,4個通道出來的寬度和高度不一致進行拼接);

答:NVIDIA顯示卡要求較高,可給NVIDIA提建議,效果甚微

15) 多工作站,多同步卡分散式投屏的同步性優化建議和方法;

可參加CUDA培訓對系統優化

16) NVIDIA是否有出6通道顯示卡的計劃(用於拼接螢幕保證通道數量);

答:無,拼接只是NVIDIA的小眾功能

NVIDIA專業卡重點力求通道穩,而不是通道數多,重點在於穩定性。

NVIDIA定位為Ai/機器學習引領這個領域,多屏拼接AMD具有優勢

17) 專業卡的詳細引數哪裡查(如,解碼能力,編碼能力能,常見引數都有,但是編碼能力限制查不到);

答:後續給相關資料

18) 驅動顯示卡設定介紹,如垂直同步等驅動是否需要做設定?

答:一般不用設定

其它方面補充:


1)產品對顯示卡優化的整體策略:
答:需要提升產品對顯示卡效能的利用(完全發揮顯示卡的效能),不能單純的升級硬體。這塊國外軟體利用的比較好,國內軟體優化的比較差。

2)目前我們專案上最大的視訊記憶體利用到18個G,負載80%左右,產品優化的方向?
答:需要基於CUDA的優化,參加CUDA培訓
1)視訊記憶體不夠用的情況下,可以使用實體記憶體緩衝,減少視訊記憶體使用量,減少視訊記憶體堆積問題
2)全部呼叫顯示卡核心處理器

視訊記憶體滿載,70、80%代表核心沒有全部利用,可能傳輸那個地方存在瓶頸
渲染演算法的差別:
1)傳統渲染演算法
2)AI演算法神經網路方式分散式渲染
AI演算法提速5倍以上,大大降低CUDA計算量和執行緒使用率(方格影象演算法)

3)A卡與N卡的側重點不一樣:
N卡重點在opengl,同時也支援dx,會考慮均衡
A卡重點在dx

4)A卡、N卡在視訊硬解是存在區別的
可考慮後端方面進行優化,比如硬解

5)P6000,p5000區別
1)P6000->AI演算法,深度學習領域
2)p5000Cuda核心數2650  P600Cuda核心數03860

Cuda Nccl GPU分散式並行GPU計算優化庫