通用計算時代將結束?|半導體行業觀察
來源:本文由公眾號半導體行業觀察(ID:icbank)翻譯自「nextplatform」,謝謝。
自在1965年被提出以來,摩爾定律在過去幾十年裡驅動計算產業經歷了一段顯著的增長和穩定時期。電晶體密度和處理器效能也在過去五十年李獲得了大幅度的提升,也推動了通用計算模型的興起。然而按照MIT電腦科學與人工智慧實驗室的Neil Thompson和哈佛大學的客座教授Svenja Spanuth的說法,這一切都將要結束了。
他們表示,通用計算不可能一直是常態。在超級計算的早期階段,來自Cray等公司的定製向量架構主導了HPC行業。目前,NEC還在基於向量系統打造相關產品。但感謝摩爾定律,電晶體的價效比在過去幾十年裡有了大幅度的攀升,其帶來的經濟優勢就趨勢產業界走進了通用計算的時代。
這主要是因為開發和製造定製晶片的成本在3000萬到8000萬美元之間。因此,即使使用者需要高效能的微處理器,但通用處理器的微縮速度,會將定製處理器帶來的差距快速拉近。同時,電晶體微縮的成本可以被數百萬個處理器攤銷,因此而成本問題也會使得采用專用架構的好處也很快消失。
但摩爾定律所帶來的計算經濟學正在發生變化。
近年來,隨著半導體材料的物理限制開始凸顯,縮小的電晶體變得越來越昂貴。據瞭解,在過去的25年中,建立一個領先的晶圓廠的成本每年增長11%。2017年,半導體行業協會估計建造一座新工廠需要花費約70億美元。這不僅推高了晶片製造商的固定成本,還將先進半導體制造商的數量從2002年的25家減少到今天的三家:英特爾,臺灣半導體制造公司(TSMC)和三星。

美國勞工統計局(BLS)也在其一份報告中試圖量化每微美元的微處理器效能。按照他們的統計,這個資料的提升率從2000 - 2004年的48%下降到2004 - 2008年的29%,而2008 - 2013年,數字又下降到每年8%。
所有這些都從根本上改變了縮小電晶體的成本/效益。
由於建造和運營新工廠的費用不斷上升,英特爾的固定成本有史以來第一次超過其可變成本。更令人不安的是,連三星和高通這樣的公司現在都認為,在最新工藝節點上製造的電晶體成本正在迅速增加,這進一步阻礙了產業界對更小尺寸的追求。這也可能是GlobalFoundries 最近放棄其7nm技術計劃背後的原因。
這不。僅僅是摩爾定律的惡化。專用處理器的另一個驅動因素是一些通用計算不能滿足需求的新應用程式的產生。如移動裝置和物聯網(IoT)這樣的平臺,他們在能源效率和成本方面要求很高,並且需要大量部署,這就催生了定製晶片的需求。而某些具有更嚴格要求的低容量應用,例如軍用和航空硬體,也有是特殊用途設計晶片的市場鎖著。
但在筆者看來,橫跨移動,桌面,嵌入式,雲端計算和超級計算等幾乎所有計算環境的應用程式類別的深度學習的問世,才是行業真正的分水嶺。
深度學習及其首選硬體平臺GPU是計算從通用處理器走向專用處理器的一個最明顯的例子。因為能夠比CPU更有效地進行資料並行處理,這種可以被視為半專業計算架構的GPU已經成為訓練深度神經網路的首選平臺。
但對於深度學習,GPU可能只是“入門藥”(gateway drug)。現在,英特爾,富士通和數十家創業公司已經提供了人工智慧和深度學習專用晶片,谷歌專門用於訓練和使用神經網路的TPU目前也更新到了第三代。
“建立一個定製的處理器對谷歌而言非常昂貴,估計固定成本為數千萬美元,”專家說到,然而,好處也很大。按照他們的說法,三代TPU的效能增長相當於摩爾定律的七年。
Thompson和Spanuth還指出,專用處理器越來越多地被應用於超級計算。他們指出,2018年11月的TOP500排名中,專用處理器(主要是Nvidia GPU)首次超越CPU,成為大部分增加的效能的來源。在這裡,我們還對其列表進行了迴歸分析,結果顯示,具有專用處理器的超級計算機每瓦特可以執行的計算次數幾乎是使用通用處理器的超算的五倍,這一結果非常具有統計意義。

Thompson和Spanuth提供了一個數學模型,用於確定專用處理器的成本/收益。在這個模型中,他們同時考慮到了開發定製晶片的固定成本,晶片數量,定製實施提供的加速以及處理器改進的速度。由於後者與摩爾定律聯絡在一起,因此速度放緩意味著即使預期的加速比較適中,專用晶片的合理化也會變得更加容易。
因此,對於許多(但不是全部)應用,現在獲得專用處理器在經濟上是可行的,至少在硬體方面,”專家表示。“另一種看待這種情況的方法是在2000 - 2004年期間,市場規模約為83,000臺處理器的應用程式如果需要專用處理器,那麼則需要效能提升100倍才划算,但在2008 - 2013年,這樣的處理器只需要2倍的提升,就足夠了。

Thompson和Spanuth還考慮到了專用處理器重新定位應用軟體的額外費用,他們認為每行程式碼的價格為11美元。這在一定程度上使模型複雜化,因為您必須考慮程式碼庫的大小,但這並不總是很容易追蹤。在這裡,他們還指出,一旦程式碼重新開發完成,它往往會阻止程式碼庫移回通用平臺。
Thompson和Spanuth還為專用處理器納入了重新定位應用軟體的額外費用,他們認為每行程式碼的價格為11美元。這在一定程度上使模型複雜化,因為您必須考慮程式碼庫的大小,這並不總是很容易追蹤。在這裡,他們還指出,一旦程式碼重新開發完成,它往往會阻止程式碼庫移回通用平臺。
最重要的是,摩爾定律的緩慢消亡正在揭示過去的創新,市場擴張和再投資是一個很好的良性迴圈。但隨著越來越多的專業晶片開始蠶食計算行業,這個週期變得支離破碎。由於較少的使用者採用最新的製造節點,晶圓廠的的融資也變得更加困難,這進一步減緩了技術進步。這將推動業界將計算行業分割成多個專門領域。
其中如深度學習等領域,由於其規模和對專用硬體的適用性,他們將率先進入快車道。而像資料庫處理這樣的領域雖然被廣泛使用,但可能會成為死水,因為這種型別的計算並不需要專用晶片。儘管可能從中受益,但類似氣候模型則因為應用面太窄,並不需要去做定製晶片。
我們也應該清楚認識到,這並不意味著CPU甚至GPU會失敗。儘管作者對此沒有太深入的研究,但我認為,未來專用,半專業和通用計算引擎都會被整合到同一晶片或處理器封裝中,而一些晶片製造商也已經走上了這條道路。
例如,Nvidia在其新一代GPU Volta中採用了Tensor Cores,後者是其專門用於深度學習的專用電路。通過這樣做,Nvidia能夠提供一個既能滿足傳統超級計算模擬又能深度學習應用的平臺。同樣,CPU正在與專用邏輯塊整合,用於加密/解密,圖形加速,訊號處理,當然還有深度學習。
期待這種趨勢繼續下去。