1. 程式人生 > >雙11個性化推薦背後,阿里雲“舜天”如何應對百億次挑戰?

雙11個性化推薦背後,阿里雲“舜天”如何應對百億次挑戰?

摘要: 2018天貓雙11在技術世界,創下不少新記錄,其中有一個記錄是11日當天阿里全平臺共為使用者做個性化推薦453億次,這些推薦的圖片長度加起來可以繞地球70圈。 當你在天貓/手淘上買買買的時,圖片會以不同格式或解析度來轉碼呈現,這就要求後臺系統需要強大的算力來保障數倍於平時的轉碼需求。

2018天貓雙11在技術世界,創下不少新記錄,其中有一個記錄是11日當天阿里全平臺共為使用者做個性化推薦453億次,這些推薦的圖片長度加起來可以繞地球70圈。

當你在天貓/手淘上買買買的時,圖片會以不同格式或解析度來轉碼呈現,這就要求後臺系統需要強大的算力來保障數倍於平時的轉碼需求。FPGA是可程式設計晶片中處理這類平行計算的最佳能耗比方案,這位曾經高冷的“王謝堂前燕”,通過雲端計算的價值加成,正在賦能越來越多的科技創新。

在今年的XDF 2018大會上,阿里雲的工程師首次向業界揭開了阿里雲FPGA平臺“舜天”的神祕面紗,這臺雲端計算加速的新引擎初露鋒芒。

雙11個性化推薦背後,阿里雲“舜天”如何應對百億次挑戰?

/初識FPGA:計算加速新引擎/

FPGA最大的特點是直接基於硬體程式設計,擁有高吞吐和低延時等特性,可以很容易搭建出資料並行通道,同時完成流水線並行;相對於ASIC,又具有軟體的可程式設計性和靈活性,這讓它能完美適應AI等對大算力有剛性需求並且尚處於快速迭代期的場景。

雙11個性化推薦背後,阿里雲“舜天”如何應對百億次挑戰?

FPGA能力模型

然而,傳統的FPGA線下開發,過程非常繁瑣。對於IP提供商或方案整合商來說,需要自己開發和維護硬體,推廣難、成本高。對於客戶來說,開發時也繞不開硬體環節,試錯成本大、週期長。

FPGA+雲正好是解決這些難題的最佳方案。

阿里雲工程師張振祥介紹,

“舜天”平臺整合了傳統FPGA產業鏈的多個環節:從晶片原廠商,硬體,IP供應商等等,將它們統一打包成平臺資源,使客戶可以專注於算力的實現,而IP供應商可以簡化交付流程,大幅優化交付週期和運營成本。

從2017年8月開始,“舜天”已經歷經三代產品迭代,最新上線的F3系列例項,可提供超過1000萬邏輯單元和高達47 TeraMACs的DSP計算能力。

以時序資料庫為例,舜天平臺的處理效率比CPU高出30倍以上:單路FPGA實現的實測峰值效能為2.97GB/s,相比之下,單核CPU壓縮的實測效能約為90M/s。在圖片識別場景下,舜天F3提供的算力約相當於7臺CPU伺服器,大幅降低了Capex成本,相比CPU伺服器,TCO降低超40%。

雙11個性化推薦背後,阿里雲“舜天”如何應對百億次挑戰?

而且,這個能力還可以擴充套件,當開發者在處理高效能運算和機器學習時,往往需要多晶片共同計算。“舜天”提供了各類高速介面,可完成1/2/4片晶片互聯拓撲,並支援動態配置。以卡內雙晶片通訊為例,頻寬高達600Gbps,同時支援多種輕量級傳輸協議,傳輸效率達95%。

/一睹真容:久經沙場的悍將/

在阿里巴巴內部,“舜天”其實已經久經沙場,支撐了包括雙11在內的超大型計算場景、城市大腦、時序資料庫、高清視訊編解碼等等明星業務都涉及FPGA加速。

以雙11舉例,在客戶通過淘寶/天貓APP或者網頁端瀏覽商品時,圖片需要以不同格式或解析度來呈現。舜天平臺的平行計算能力,直接將圖片處理的延時縮減到CPU伺服器的50%,將吞吐能力提升了數倍。

在基因賽場裡,“舜天“的表現也很出色,100Gbp全基因組分析時間被縮短至兩小時,速度比過去提升了10倍,單位成本也大大降低。全基因,指的就是把物種細胞裡面完整的基因組序列從第1個DNA開始一直分析到最後一個DNA,這種技術幾乎能夠鑑定出基因組上任何型別的突變。

/化繁為簡:大幅降低開發門檻/

在傳統軟體工程師眼裡,FPGA晶片的開發門檻是很高的,一方面需要了解HDL硬體程式設計,一方面需要對底層硬體和介面瞭如指掌。

在此次的XDF大會上,阿里雲工程師潘岳介紹了舜天平臺的解決方案。

首先,“舜天”增加了對高階系統語言的支援,包括C, C++, OpenCL等。這意味著開發者可以在他們熟悉的程式語言和工作流程中順暢使用,而且確保原本基於CPU或GPU的開發可以輕鬆移植到雲上的FPGA器件中。同時,阿里雲還提供了大量的參考設計和開發包,幫助開發者快速建立系統。

介面方面,“舜天”提供了統一的標準匯流排介面,包括:DDR4/5、PCIe、DMA等等,開發者無需動手,只需要關心內部邏輯實現(圖中灰色部分)。

雙11個性化推薦背後,阿里雲“舜天”如何應對百億次挑戰?

此外,阿里雲還支援多種主流FPGA的Shell+Role實現,可以適配跨平臺的Multi-boot方案,讓使用者能夠輕鬆完成跨平臺遷移。

/IP加密隔離:安全不打折/

作為FPGA生態的最重要一環,IP廠商非常在意雲上的多租戶環境。既要需要確保IP產品不洩露,又要保證使用者購買的IP只能被自己使用。

為此,阿里雲採用了IP加密、網路隔離、IP所屬權和使用權分離等方式確保了使用者的原始碼(或IP原始碼)、發行包、部署環境全程對第三方完全不可見,同時還提供健康監控能力,及時感知底層故障並實時報警。

雙11個性化推薦背後,阿里雲“舜天”如何應對百億次挑戰?

作為最早入住舜天平臺的IP提供商之一,聯捷計算科技CTAccel CEO俞海樂博士表示,

上雲後安全是我們最關注的問題,阿里雲的安全隔離做得非常到位,這也是我們優先選擇阿里雲進行部署的原因。

/不變的使命:共建普惠異構生態/

此前阿里雲的Slogan“為了無法計算的價值”一直深入人心,積極佈道普惠計算。自推出異構計算依賴,開發者在阿里雲上能以更少的價格使用效能更強的GPU/FPGA例項,在深度學習領域將開發成本降低了一半以上。

為了讓更多開發者能夠享受到FPGA的收益,阿里雲推出了FPGA彈性雲伺服器,並建立了FPGA映象市場,讓具有創新思路和成熟解決方案的IP產品通過平臺脫穎而出,擴大市場規模,加快研發進度,提高設計穩定性。

張振祥說,

舜天是阿里雲使能人工智慧產業的一大利器,我們歡迎更多的開發者加入阿里雲FPGA生態,推動技術落地到產業中去。