計算領域迎來“寒武紀大爆發”
大約5.41億年前,也就是地球歷史上的寒武紀時期,生命型別的急劇增加孕育了不少到現在還存活著的、或者已經滅亡了的生物家族。這是對生物形式和生態環境的一個巨大實驗時期,考驗這些生物能否在一個更有活力的新生態系統中生存成長。
如今,計算處理能力的增長速度(也被稱為摩爾定律)正在放緩,物聯網和大資料對處理海量資料的需求不斷增加,引發了“計算領域的寒武紀大爆發”,催生了新一代邏輯、記憶體和儲存設計,包括小晶片(Chipilet)、多晶片堆疊異構裝置和加速器晶片等。
英特爾和AMD都在致力於將單片處理器分解為專用晶片,也就是Chiplet(較小的專用晶片),可以在多晶片模組上協同工作。兩家廠商都極力追求更小尺寸的光刻工藝,但採用10奈米以下工藝製造的晶片可能會出現更多錯誤,讓生產質量變得更加糟糕。出於這個原因,英特爾和AMD將小型光刻工藝集中在專用晶片上。對於AMD而言,最小7奈米的工藝用於製造更高密度的CPU核心,而各種採用了最小14奈米工藝的小晶片可針對其他用途。
英特爾宣佈推出的Foveros Project將採用10奈米工藝,以實現節能的目的,而為新晶片採用14奈米工藝, 以滿足其他更高功率的要求。英特爾表示,採用這種設計的Lakefield產品將於2019年下半年面市。
來自美國桑迪亞國家實驗室的Arun Rodrigues在2019 Salishan Conference on High Speed Computing Conference大會上發表了題為《Hererogeneous Accelerators of the Memory, by the Memory, and for the Memory》的演講。他說,我們正在進入一個極端的半導體異構時代,有很多采用專有處理器晶片的可能性和解決方案(通常被稱為加速器)。
他指出,傳統的計算方法並不能很好地管理記憶體。主記憶體(特別是分層記憶體)速度很慢,快取效率低下,處理器遠離需要處理的資料。隨著摩爾定律的放緩,把單片晶片的處理任務分解到多個位置的專用晶片上的這一做法變得越來越流行。此外,支援ARM或RISC-V處理的基礎設施也讓這一點更容易實現、成本更低。
多個美國國家實驗室已經就如何推動加速器的使用展開了代號“Project 38”的合作。該專案的一個關鍵特點就是所謂的分散/聚集(scatter/gather)架構。分散/聚集I/O也稱為向量I/O,這種I/O方法讓單個處理器從多個緩衝區順序讀取資料再寫入到單個數據流,或者從一個數據流中讀取資料再寫入到多個緩衝區。分散/聚集指的是從給定緩衝區收集資料、或者將資料分散到這些緩衝區的過程。向量化I/O是非常有效且方便的,下面的幻燈片展示了這種概念在實踐中的使用。
分散/聚集架構
分散/聚集操作在Scrachpad中完成(解除安裝)。Scrachpa中的資料可以重複使用,解除安裝了對資料的大量整數操作。如果將資料放入快取記憶體中的話,還可以讓這種方法變得更高效。在分析和模擬實踐中,發現效能提高了15-28%,快取未命中率降低,快取效能提高。這種方法還可以實現記憶體內部的大量操作,從而提高整體效能。Arun還舉例說明了這種方法給Spiking Neural Network案例帶來的改善效果。
他提到了多級儲存器的優點和需要權衡哪些方面,以提供更有效的頻寬,但為了控制成本,就需要對多個記憶體進行有效的管理。他認為,自動塊級交換(一種硬體輔助記憶體管理方法,參見下面的幻燈片)可以實現這種記憶體管理,而且有證據證明這種方法是有效的。
多級記憶體管理方法
Arun指出,這種方法最大的障礙在於軟體。研究人員正在致力於使用可以擴充套件到其他加速器的GPU(一種特殊型別的過程加速器),此外還需要同步、資料編組、執行緒管理等硬體方面的輔助。
除了專用加速器晶片(GPU、TPU、IPU和其他專用、通常是FPGA支援的器件)越來越豐富之外,我們也看到業界正在越來越多地改善這項技術來堆疊半導體晶片——通常是在每個晶片上堆疊不同型別的器件,特別是針對嵌入式應用和高效能運算應用,而且互連密度也在不斷提高。這催生了很多非常有趣的結構,正如另一位發言人來自NHanced Semiconductors的Robert Patti所展示的,這種異構性(他稱之為LamdaFabri)會導致系統變得很複雜, 他的目標是打造一個合成的量子計算系統。
系統級異構整合
邏輯電路不斷擴充套件所面臨的侷限性,導致了設計和採用邏輯及記憶體電路這些新方法的“寒武紀大爆發”,催生了可應對工業物聯網、消費者物聯網、智慧城市、和針對AI分析的大資料的新一代系統。