亞馬遜網路服務推出自定義機器學習推理晶片
它設計的是Inferentia,因為GPU製造商將注意力集中在培訓上,而對推理的關注則太少。
在推出執行在自己的Arm晶片上的雲伺服器例項三天後,亞馬遜網路服務公司宣佈它還設計了自己的處理器,用於機器學習應用程式的推理。 AWS執行長Andy Jassy在週三上午在拉斯維加斯舉行的雲端計算大型年會上發表了主題演講,宣佈推出名為AWS Inferentia的推理晶片。
谷歌表示,AWS競爭對手谷歌雲平臺於2016年釋出了其首款定製機器學習晶片TPU。張量處理器 (Tensor Processing Unit,TPU) 是Google為機器學習客製化的專用晶片(ASIC),專為Google的深度學習框架TensorFlow而設計。到那時,它已在其資料中心執行TPU約一年。
谷歌現在是第三代TPU,它一直作為雲服務提供給客戶。亞馬遜是雲端計算市場上最大的競爭對手,微軟Azure尚未推出自己的處理器。所有三個播放器都提供Nvidia GPU,用於機器學習工作負載加速即服務; AWS和Azure還提供用於機器學習的FPGA。
與亞馬遜定製的Arm處理器一樣,Inferentia是在2015年收購的以色列亞馬遜創業公司Annapurna的工程師的幫助下設計的。
AWS計劃向客戶提供Inferentia,但這將是Google的一個非常不同的產品。與專為訓練機器學習模型而設計的TPU不同,Inferentia專為推理而設計,這是系統在訓練後做出的決策。通過對成千上萬張各種標記的貓照片進行處理,訓練模型後,它就是識別影象中的貓的部分。
亞馬遜網路服務
用於機器學習推理的AWS的Inferentia處理器,由Annapurna Labs構建(來源:AWS VP和傑出工程師James Hamilton的Perspectives部落格)
Jassy表示,為機器學習製造加速器處理器的公司 - 最大的一個是Nvidia--已將其大部分注意力集中在優化處理器上進行培訓。這就是AWS決定專注於設計更好的推理晶片的原因。
他沒有分享有關晶片設計或效能的任何細節,也沒有說明什麼時候可供客戶使用。該公司在其網站上表示,每個Inferentia晶片“提供數百個TOPS(每秒tera操作)的推理吞吐量......為了獲得更高的效能,可以將多個AWS Inferentia晶片一起用於驅動數千TOPS的吞吐量。”
“它將在所有EC2例項型別以及SageMaker中為您提供,並且您將能夠將其與彈性推理一起使用,”Jassy說。 SageMaker是一種AWS託管服務,用於構建和培訓機器學習模型。
彈性推理是Jassy週三宣佈的新AWS功能。它使使用者能夠根據需要自動擴充套件部署在雲中的推理處理器容量。
據他介紹,P3例項之前還沒有自動擴充套件功能 - 這是亞馬遜雲上最受歡迎的機器學習例項。如果沒有它,使用者必須為峰值需求提供足夠的P3容量,在系統未達到峰值時支付未使用的容量。
Jassy表示,這導致P3例項的GPU平均利用率為10%至30%。
彈性推理可以附加到AWS中的任何EC2例項,並根據需要向上或向下擴充套件,從而可能為使用者節省大量資金。 Jassy說,它可以檢測客戶使用的機器學習框架,找到最有利於硬體加速的部件,並自動將它們移動到加速器。