英偉達:不僅僅是一家晶片公司
編者按:本文來自微信公眾號 “半導體行業觀察”(ID:icbank) ,作者Forbes,36氪經授權釋出。
本文由公眾號半導體行業觀察(ID:icbank)翻譯自「Forbes」,謝謝。
在NVIDIA宣佈將花費69億美元收購資料中心網路公司Mellanox之後,讓很多人為此感到驚訝,當中包括了NVIDIA的長期觀察者。這是迄今為止NVIDIA有史以來最大的收購,相對而言,它以前購買的公司規模要小得多,而且往往是在對方甩賣的時候再出售。從規模上看,他們2001年出資拿下競爭對手3dfx資產的交易最為接近,因為當時NVIDIA是一家小得多的公司。
正如我在之前的一篇文章中所解釋的那樣。購買3dfx資產(以及僱傭100名員工)是一個更容易理解的舉措,因為新資產可以立即投入到NVIDIA的核心業務——PC圖形處理器上。多年Mellanox處於一個完全不同的業務——資料中心網路。Mellanox的產品補充了NVIDIA的產品,沒有重疊。
通過此次收購,NVIDIA表示,他們不再是一家GPU公司。隨著加速器業務呈指數增長並進入網路,NVIDIA現在是一家資料中心公司。
Mellanox執行長Eyal Waldman與NVIDIA執行長Jensen Huang共同出席了2019年的GTC舞臺
收購Mellanox有很多有趣的方面,例如NVIDIA更深入地進入以色列的科技行業; Mellanox的其他計算相關資產(EZChip和Tilera); Jensen Huang的管理風格將如何在以色列發揮作用; Mellanox支援CCIX計算加速器連線協議與NVIDIA自己的NVLink。在後面的文章中,我們會一一深入探索這些不同。但現在,讓我們來探索一下這款全新的NVIDIA。
NVIDIA如何成為一家資料中心公司?
這一切都始於2006年左右的發現(在斯坦福大學)。那時候,斯坦福大學的人使用圖形處理單元(GPU)進行一些計算密集型工作負載處理,與傳統處理器或CPU相比,GPU提供的每瓦效能有了重大的提升。
事實證明,用於處理畫素(紋理處理)的所有小計算元素都可用於粗略的科學計算。該領域最初被稱為GPU Compute。與此同時,圖形也變得越來越複雜,並且GPU中增加了全功能的數學處理功能。NVIDIA的一些人,包括Bill Dally教授和已故的John Nicholls,注意到有機會擴大GPU的使用範圍,並在高效能運算(HPC)市場中發揮重要作用。結果是,NVIDIA在以圖形計算的Quadro產品線為基礎,在其GPU中為HPC工作負載添加了更多功能,開闢了一條專門用來做數值計算的Tesla產品線。
該公司還為其GPU開發了CUDA程式設計框架,但從未支援任何其他GPU。作為主要競爭GPU供應商的AMD選擇等待OpenCL開發,但這個軟體的開發速度要慢得多。在這樣的基礎上,NVIDIA在HPC方面大獲成功,並在超級計算機TOP500排行榜中名列前茅。據介紹,他們為全球兩個最快的超級計算機提供動力。
NVIDIA執行長Jensen Huang展示了該公司在超級計算機上的增長
由於NVIDIA在HPC的GPU計算方面的工作表現優越,AI領域的一些研究人員決定使用GPU來加速稱為深度卷積神經網路(DCNN)的新機器學習演算法。新的DCNN和GPU的組合使得AI神經網路的訓練和推斷比以前更加快速和準確。這推動了原本處於寒武紀的人工智慧研究和應用爆炸式增長,而NVIDIA引領這股潮流。該公司為這些新的工作負載快速調整了GPU,增加了新的數學函式,甚至加油稱為Tensor Cores的專用處理元素。NVIDIA還開發了一系列名為cuDNN的軟體庫,針對CUDA和深度神經網路進行了優化。
由於人工智慧研究的爆炸式增長,每個雲供應商也都開發了自己的語言。谷歌擁有TensorFlow,Facebook擁有Pytorch / Caffe 2等。即使人工智慧框架擁有碎片化的困境,但該領域仍在快速增長。因為大家還在繼續研究新演算法,所以靈活的方法具有長期的擁有成本效益。這就是GPU(或FPGA)等靈活性加速器說擅長的,因為他們很容易適應新的演算法。在他的GTC 2019主題演講中,Jensen將這種架構稱為“PRADA”,從一個架構中可程式設計加速多個域。該體系結構相容性允許構建已安裝的軟體和系統基礎並降低基礎架構的成本。
Jensen Huang解釋了他的首字母縮略詞PRADA
從晶片轉向系統
在黃仁勳的主題演講中他提出,資料科學是科學方法的第四個支援。NVIDIA意識到資料科學家和人工智慧研究人員短缺,因此這些人的生產力非常重要。為了保持這種勢頭,將資源帶給更廣泛的開發人員非常重要。因此,該公司設計了一系列DGX工作站和伺服器,滿載了用於ML研究的CUDA-X工具和庫。該公司正在利用來自多家系統原始裝置製造商(包括戴爾,惠普公司和聯想)的新資料科學平臺,擴大其對資料科學家的影響力。
即使使用新的系統和工具,該行業仍然面臨著為商業和科學見解分類新的和現有資料的挑戰。這推動資料科學去解決資料過多的問題。當我們進入自動駕駛汽車時代,它們將產生需要處理的數十億位元組的資訊。這就是為什麼英偉達認為越來越多的資料中心需要構建AI處理來對所有這些資料進行分類的原因。
超級計算機與HPC
在HPC的工作中,NVIDIA專注於提供最大計算效能解決非常大的問題。超大規模資料中心通常會同時執行許多計算任務(向外擴充套件)。資料科學的需求恰好介於兩者之間 - 大型資料集和許多使用者,並具有向上擴充套件和向外擴充套件的特徵。
為了滿足這些不同的需求,NVIDIA已經與Mellanox建立了許多伺服器專案,提供機架網路。由於Mellanox的成功,它成為各種晶片公司和雲公司的收購目標,當中包括英特爾和微軟等公司。然而,Mellanox不是去其中一家公司,而是尋求像NVIDIA這樣更友好的合作伙伴。黃仁勳也在有機會成為Mellanox的白衣騎士時,抓住了這個轉瞬即逝的機會。
隨著Hadoop,SPARC和RAPIDS等資料分析程式對工作負載的容器化和超大規模的不斷增加,他們看到通常被稱為資料中心的東西向通訊的機架到機架通訊呈指數增長。那就意味著低延遲網路對於建立計算結構至關重要。
Mellanox的網路技術可以使資料中心足夠靈活,以適應這些不斷變化的工作負載。Mellanox的關鍵開發是把網路任務從CPU轉移到加速器,在未來它將為其交換產品新增AI以更有效地移動資料。
對於伺服器擴充套件應用程式(如HPC),目標是使多個GPU像一個巨型GPU一樣工作。這就是NVIDIA的NVLink發揮作用的地方,將多個GPU捆綁在一起。對於更廣泛的基礎設施,可以部署Tesla T4卡。這些70W half-height PCIe PCIe卡適用於2U機架機箱,因此這些卡可以大量新增到現有資料中心。T4是NVIDIA最靈活的資料中心產品 - 它可用於推理,訓練(速度與V100速度不同),資料科學,視訊轉碼以及VDI(虛擬桌面)應用。
在未來,英偉達將更加重視雲和邊緣應用程式的推理,這也是NVIDIA在英特爾競爭最激烈的領域,
雖然AI加速器的寶座上有許多競爭者,但NVIDIA依然是擁有最多安裝量的山頂之王。通過收購Mellanox,它們開闢了其資料中心領域。